Ai-boty „zjadają” zasoby stron internetowych. co to oznacza dla małych firm i jak się bronić

Przez lata właściciele witryn internetowych nauczyli się żyć z klasycznymi robotami wyszukiwarek. Owszem, potrafiły one mocno obciążyć serwer, ale w zamian przynosiły ruch z wyników wyszukiwania. Wraz z boomem na generatywną sztuczną inteligencję powstała jednak nowa kategoria robotów: agresywne crawlery i fetchery związane z modelami AI. Te potrafią w krótkim czasie wygenerować dziesiątki tysięcy żądań na minutę, pobierać całe zbiory treści i – co szczególnie bolesne dla mniejszych biznesów – podbijać rachunki za hosting i transfer danych. Poniżej wyjaśniamy, skąd ten trend, dlaczego uderza zwłaszcza w małe firmy oraz jak krok po kroku ograniczyć jego skutki bez niszczenia widoczności w wyszukiwarkach.

Skąd nagły wysyp AI-botów i dlaczego tak obciążają serwery

Gwałtowny wzrost popularności narzędzi AI (od wyszukiwarek wspieranych modelami po agentów sieciowych przeglądających strony „w naszym imieniu”) pociągnął za sobą lawinę zapytań do publicznie dostępnych witryn. Dane z infrastruktury sieciowej dużych dostawców pokazują, że ruch generowany przez roboty i crawlery wciąż rośnie, a udział wyspecjalizowanych botów AI – takich jak GPTBot, ClaudeBot czy PerplexityBot – w wielu segmentach przyspieszył w latach 2024–2025.

To nie są „zwykłe” wizyty. Klasyczny robot indeksujący (np. Googlebot) odwiedza stronę według ustalonych polityk i stara się nie przeciążać serwera. Natomiast ekosystem AI obejmuje różne typy automatycznych klientów:

Crawlery treningowe – pobierają hurtowo treści w celu budowy korpusów do uczenia modeli (np. GPTBot, CCBot Common Crawl, niektóre boty firm technologicznych).
Fetcher-y odpowiedzi – roboty, które „w locie” zaciągają zawartość z wielu źródeł, aby udzielić odpowiedzi użytkownikowi w aplikacji AI. Potrafią gwałtownie „dociążać” origin serwera, zwłaszcza przy nagłych wzrostach popularności zapytań.
Agenci przeglądający – nowe klasy „botów z przeglądarką”, wykonujące skrypty, renderujące JavaScript i wchodzące w interakcje z witryną podobnie jak człowiek.

Skala jest realna: raporty branżowe pokazują, że niemal połowę całego ruchu w sieci stanowią systemy nie-ludzkie, a w latach 2024–2025 znacząco wzrósł udział właśnie crawlerów i botów powiązanych z AI. W wielu przypadkach konkretne boty (np. GPTBot) odnotowały kilkusetprocentowe wzrosty liczby żądań r/r. Z kolei analizy operatorów CDN wskazują, że ruch „fetcherów” potrafi osiągać dziesiątki tysięcy żądań na minutę, co bez ochrony może upodobnić się do warunków DDoS, choć bez złej intencji.

Dlaczego to szczególnie boli małe firmy

Duże portale mogą „przełknąć” skoki ruchu dzięki rozbudowanej infrastrukturze i dedykowanym zespołom. Małe i średnie biznesy (e-commerce, SaaS, bazy wiedzy, blogi firmowe) odczuwają jednak konsekwencje szybciej i dotkliwiej:

Wyższe koszty hostingu i transferu. Nawet jeśli obsługa żądania kosztuje ułamek grosza, tysiące lub miliony niepotrzebnych pobrań miesięcznie przekładają się na realne rachunki: za egress (transfer wychodzący z chmury), za nadmiarowe instancje serwerów auto-scaling, za zapytania do bazy czy cache-missy. Częstym „cichym zabójcą” jest koszt właśnie transferu, bo jest mnożony przez każde pobranie strony, obrazka czy pliku.
Spadek wydajności i konwersji. Tłok generowany przez boty zwiększa czasy odpowiedzi, co uderza w UX i SEO. Na małym serwerze nagły szturm fetcherów w porze szczytu może po prostu „zagłuszyć” ruch klientów.
„Zanieczyszczone” analityki. Skoki sesji z botów fałszują wskaźniki (odsłony, bounce, czas na stronie), utrudniając ocenę skuteczności kampanii i decyzji biznesowych.
Ryzyko kanibalizacji ruchu. Odpowiedzi generowane przez wyszukiwarki lub aplikacje AI często „zjadają” potrzebę kliknięcia w źródło. Dla stron monetyzowanych afiliacją czy reklamą to prosta droga do spadku przychodu mimo większego ruchu po stronie botów.
Koszty operacyjne. Gaszenie „pożarów” (incydenty wydajnościowe, nadmiarowy monitoring, incydenty wsparcia) to czas i pieniądze, które w małej firmie łatwo odciągają zasoby od rozwoju produktu.

„robots.txt” pomaga, ale nie jest tarczą nie do przebicia

Wielu dostawców AI deklaruje respektowanie poleceń w pliku robots.txt i oferuje własne „tokeny” opt-out (np. Google-Extended dla usług Gemini/Bard). To ważny, szybki krok – i naprawdę warto go wdrożyć. Trzeba jednak pamiętać o dwóch faktach:

„robots.txt” ma charakter dorozumiany – uczciwe boty go przestrzegają, ale protokół nie ma mocy egzekwującej; nie jest to mechanizm bezpieczeństwa. Zablokowanie indeksacji lub dostępu wymaga innych metod ("nie indeksuj", logowanie, paywall, blokada na poziomie serwera/CDN).
Ekosystem botów jest dynamiczny – pojawiają się nowe user-agenty i klasy klientów (np. „ChatGPT-User” czy boty przeglądarkowe), a niektóre firmy modyfikują swoje roboty. Dlatego same wpisy w robots.txt nie wystarczą jako jedyna linia obrony.

Jak policzyć, ile naprawdę kosztują Cię AI-boty

Zanim wdrożysz blokady, oszacuj skalę problemu. To ułatwi dobranie „sztywności” polityk i ocenę efektów.

Analiza logów: zidentyfikuj user-agenty (GPTBot, CCBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider itd.), policz liczbę żądań i ile danych wysyłasz w odpowiedzi (średnia wielkość odpowiedzi × liczba trafień).
Egress i cache: jeśli korzystasz z CDN, sprawdź cache hit ratio i transfer z origin. „Fetcher” działający jak przeglądarka może omijać cache (bo generuje unikalne nagłówki/parametry), co podbija koszty.
Model kosztowy: przemnażasz sumę GB × stawka (np. za egress), dodajesz koszt instancji (jeśli autoskalowanie), koszt zapytań do bazy (RDS/Cloud SQL) i serwisów zewnętrznych (np. API map, wyszukiwarki, e-mail).
Okresy szczytowe: zapisz, kiedy padają „piki” – często korelują z publikacjami lub trendami, wtedy fetchery próbują szybko „zassać” nowy content.

Już prosta kalkulacja typu: 200 000 nadmiarowych żądań × 300 KB odpowiedzi = ~57 GB dodatkowego transferu dziennie (ponad 1,7 TB miesięcznie) – potrafi przełożyć się na zauważalny rachunek, a to tylko warstwa transferu. Dodaj koszt przetwarzania i skok liczby procesów/połączeń przy pikach ruchu.

Sposoby obrony: od najłagodniejszych do twardszych

Nie ma jednej „magicznej kuli”. Skuteczna strategia to warstwowa kontrola: deklaratywne opt-out, filtrowanie, ograniczanie tempa, wzmocnienie cache i selektywne twarde blokady. Zacznij od działań najmniej ryzykownych dla SEO i UX.

1) Szybkie porządki w robots.txt (opcja niskiego ryzyka)

Dodaj wpisy dla popularnych botów AI i aktualizuj je w miarę potrzeb. Przykład minimalnego „pakietu startowego”:

# Blokada crawlerów treningowych AI
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

Warto też rozważyć Crawl-delay dla botów, które go honorują (np. Common Crawl):

User-agent: CCBot
Disallow: /
# Jeśli nie chcesz całkowicie blokować:
# Crawl-delay: 2

Uwaga: te wpisy nie blokują dostępu technicznie – informują „grzeczne” boty, aby nie wchodziły. Dają jednak szybki efekt u wielu dużych graczy (OpenAI, Google, Perplexity i in.).

2) Reguły na CDN/WAF i ograniczanie tempa (rate limiting)

Druga linia to polityki na poziomie CDN/WAF lub serwera aplikacyjnego:

Rate limiting per IP/UA: ustaw limity, np. 60 żądań/60 s na ścieżkę / lub /search dla podejrzanych user-agentów; podeprzyj to „wychładzaniem” (429 Too Many Requests).
Blokady warunkowe: zaostrzaj reguły w godzinach szczytu lub przy piku błędów 5xx.
Wyzwania (challenge): lekkie JavaScript/turnstile dla anonimowych, masowych hitów. Unikaj uciążliwych CAPTCHA na całej witrynie – stosuj punktowo.
Reverse DNS/ASN: mocniejsza filtracja dla znanych chmurowych zakresów „data center” (zachowaj białe listy dla własnych integracji).

3) Twarde blokady na serwerze (ostatnia deska ratunku)

Jeśli masz ciągłe nadużycia, możesz wdrożyć blokady na poziomie serwera www (uważaj jednak na SEO i UX):

# Nginx – przykład selektywnego 403 dla wybranych UA
map $http_user_agent $is_ai_bot {
    default 0;
    ~*GPTBot 1;
    ~*ClaudeBot 1;
    ~*CCBot 1;
    ~*PerplexityBot 1;
    ~*Google-Extended 1;
}

server {
    if ($is_ai_bot) { return 403; }
    # ...
}

# Apache (.htaccess) – przykład
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|CCBot|PerplexityBot|Google-Extended) [NC]
RewriteRule ^ - [F]

Pamiętaj, że same ciągi User-Agent można podszyć. Dlatego blokady UA traktuj jako wsparcie, a nie jedyną metodę.

4) Wzmocnij cache i renderowanie

Full-page caching dla stron informacyjnych (z krótkim TTL, np. 1–5 min), by większość pobrań obsługiwał CDN.
Ogranicz parametry w URL (unikalne query stringi) i nadmiarowe nagłówki – fetchery często je generują i psują cache-hit.
Lazy-loading i kompresja – pliki i obrazki mniej „bolą”, gdy są mniejsze.

5) Polityka treści i aspekty prawne

Warunki korzystania: dopisz jasny zakaz wykorzystania treści do treningu modeli bez zgody/licencji oraz zakaz scrapingu hurtowego. To nie „magia”, ale wzmacnia pozycję przy sporach.
Licencje/Paywall/Tokenizacja: cenniejsze zasoby (bazy, katalogi) warto chronić rejestracją, tokenami dostępowymi lub płatnym API.
Robots-meta i "nie indeksuj": dla sekcji, które nie muszą być w wyszukiwarce, użyj "nie indeksuj" lub autoryzacji.

Jak pogodzić widoczność w Google z obroną przed AI-botami

Klucz to rozdzielenie „dobrych” botów (Googlebot, Bingbot) od „nadmiernych” fetcherów i crawlerów AI. Praktyczny przepis:

Zostaw otwarte wyszukiwarki (Googlebot/Bingbot) – nie blokuj ich ogólnie w robots.txt, inaczej stracisz SEO.
Zastosuj selektywny opt-out dla AI-treningu – wpis Google-Extended i GPTBot w robots.txt oraz analogiczne dla Perplexity i Anthropic.
WAF/CDN: wprowadź reguły na tempo i liczbę zapytań; dobre boty nie powinny ich łamać.
Monitoruj i koryguj: raz w miesiącu przeglądaj logi i dostosowuj polityki. Świat botów jest ruchomy.

Checklist dla właścicieli małych stron (do wdrożenia dziś)

Dodaj do /robots.txt wpisy dla: GPTBot, Google-Extended, CCBot, ClaudeBot, PerplexityBot.
Włącz podstawowe rate-limiting na ścieżki o dużym koszcie (wyszukiwarka, API, listy produktów).
Skonfiguruj w CDN cache pełnych stron z krótkim TTL i sprawdź cache hit ratio.
Ustaw alerty na piki żądań z nietypowych UA/ASN i progi automatycznych reakcji (429/JS challenge).
Zaktualizuj Warunki korzystania (zakaz scrapingu/AI-treningu, jasne zasady licencji).
Zrób miesięczny przegląd: ile GB poszło na boty? Ile kosztowało? Czy polityki zadziałały?

Najczęstsze pytania

Czy blokada AI-botów w robots.txt obniży widoczność w Google?
Nie, jeśli nie blokujesz Googlebota. Wpis Google-Extended dotyczy wykorzystania treści do Gemini/AI, a nie klasycznej indeksacji wyszukiwarki.

Co jeśli bot ignoruje robots.txt?
Wtedy działaj wyżej w łańcuchu: WAF/CDN (rate-limit, challenge, blokada), ewentualnie twarde reguły na serwerze i ograniczenie treści (logowanie, paywall, tokeny).

Czy to już „wojna” z AI?
Nie musi. Celem jest kontrola kosztów i dostępności. Wielu dostawców AI daje oficjalne ścieżki opt-out. Twoja polityka może być selektywna – nie chodzi o zamknięcie wszystkiego, tylko o zachowanie równowagi.

Podsumowanie

AI-boty nie znikną – będą ewoluować wraz z rynkiem. Dobra wiadomość jest taka, że dziś masz do dyspozycji zestaw skutecznych narzędzi: od deklaratywnych opt-outów po reguły w CDN/WAF i optymalizację cache. Dla małych firm to często różnica między stabilną działalnością a nieprzewidzianymi kosztami hostingu i spadkiem wydajności. Zacznij od policzenia ruchu, wdrożenia podstawowych wpisów w robots.txt i prostych limitów tempa. Potem – iteruj. W świecie botów wygrywa ten, kto regularnie mierzy i dostraja.

Źródła i dalsza lektura

https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
Analiza Cloudflare aktywności crawlerów 2024–2025: wzrost ruchu botów AI, dynamika poszczególnych agentów (np. skok GPTBot) i obserwacje z dużej sieci.
https://developers.google.com/search/docs/crawling-indexing/robots/intro
Dokumentacja Google Search Central o pliku robots.txt – jego roli, ograniczeniach i tym, że nie jest mechanizmem bezpieczeństwa ani gwarancją wyłączenia stron z indeksu.
https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
Oficjalne informacje Google o „Google-Extended” – tokenie pozwalającym właścicielom stron zarządzać wykorzystaniem treści przez modele Gemini/Vertex AI (opt-out).
https://platform.openai.com/docs/gptbot
Strona OpenAI o GPTBocie: identyfikacja user-agenta oraz instrukcje, jak wyłączyć dostęp za pomocą robots.txt (opt-out dla treningu modeli).
https://commoncrawl.org/faq
FAQ projektu Common Crawl: jak ograniczyć szybkość (Crawl-delay) i jak całkowicie zablokować CCBot w robots.txt.
https://docs.perplexity.ai/guides/bots
Dokumentacja Perplexity o PerplexityBocie: opis działania i wskazówki dla webmasterów dotyczące kontroli dostępu przez robots.txt/IP.
https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/
Zapowiedź Cloudflare „easy button” – szybkie blokowanie botów AI po stronie CDN dla wszystkich planów, także darmowych.
https://www.akamai.com/blog/security/the-hidden-costs-and-ethical-pitfalls-of-content-scraping
Blog Akamai o ukrytych kosztach i skutkach scrapingu: wpływ na wydajność, koszty infrastruktury, doświadczenie użytkownika i reputację marki.
https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9
Artykuł Business Insider z przykładami małych serwisów, którym skoki ruchu botów AI niemal „wyczyściły” budżet (w tym gwałtowne koszty transferu chmurowego).
https://www.theverge.com/2024/7/25/24205943/anthropic-ai-web-crawler-claudebot-ifixit-scraping-training-data
Tekst The Verge opisujący głośny przypadek intensywnego scrapingu przez ClaudeBot i reakcje społeczności oraz firmy na polityki opt-out.

Autor wpisu:

Grzegorz Wiśniewski – ekspert z 25-letnim doświadczeniem w marketingu, IT , biznesie.CEO Soluma Group, CEO Soluma Interactive, red. naczelny Mindly.pl

Strony WWW

Marketing

Projektowanie grafiki

Pisanie tekstów

Wydawnictwo

Pozostałe usługi

Dla klientów

Informacje

AI-boty „zjadają” zasoby stron internetowych. Co to oznacza dla małych firm i jak się bronić