Przez lata właściciele witryn internetowych nauczyli się żyć z klasycznymi robotami wyszukiwarek. Owszem, potrafiły one mocno obciążyć serwer, ale w zamian przynosiły ruch z wyników wyszukiwania. Wraz z boomem na generatywną sztuczną inteligencję powstała jednak nowa kategoria robotów: agresywne crawlery i fetchery związane z modelami AI. Te potrafią w krótkim czasie wygenerować dziesiątki tysięcy żądań na minutę, pobierać całe zbiory treści i – co szczególnie bolesne dla mniejszych biznesów – podbijać rachunki za hosting i transfer danych. Poniżej wyjaśniamy, skąd ten trend, dlaczego uderza zwłaszcza w małe firmy oraz jak krok po kroku ograniczyć jego skutki bez niszczenia widoczności w wyszukiwarkach.
Gwałtowny wzrost popularności narzędzi AI (od wyszukiwarek wspieranych modelami po agentów sieciowych przeglądających strony „w naszym imieniu”) pociągnął za sobą lawinę zapytań do publicznie dostępnych witryn. Dane z infrastruktury sieciowej dużych dostawców pokazują, że ruch generowany przez roboty i crawlery wciąż rośnie, a udział wyspecjalizowanych botów AI – takich jak GPTBot, ClaudeBot czy PerplexityBot – w wielu segmentach przyspieszył w latach 2024–2025.
To nie są „zwykłe” wizyty. Klasyczny robot indeksujący (np. Googlebot) odwiedza stronę według ustalonych polityk i stara się nie przeciążać serwera. Natomiast ekosystem AI obejmuje różne typy automatycznych klientów:
Skala jest realna: raporty branżowe pokazują, że niemal połowę całego ruchu w sieci stanowią systemy nie-ludzkie, a w latach 2024–2025 znacząco wzrósł udział właśnie crawlerów i botów powiązanych z AI. W wielu przypadkach konkretne boty (np. GPTBot) odnotowały kilkusetprocentowe wzrosty liczby żądań r/r. Z kolei analizy operatorów CDN wskazują, że ruch „fetcherów” potrafi osiągać dziesiątki tysięcy żądań na minutę, co bez ochrony może upodobnić się do warunków DDoS, choć bez złej intencji.
Duże portale mogą „przełknąć” skoki ruchu dzięki rozbudowanej infrastrukturze i dedykowanym zespołom. Małe i średnie biznesy (e-commerce, SaaS, bazy wiedzy, blogi firmowe) odczuwają jednak konsekwencje szybciej i dotkliwiej:
Wielu dostawców AI deklaruje respektowanie poleceń w pliku robots.txt i oferuje własne „tokeny” opt-out (np. Google-Extended dla usług Gemini/Bard). To ważny, szybki krok – i naprawdę warto go wdrożyć. Trzeba jednak pamiętać o dwóch faktach:
robots.txt nie wystarczą jako jedyna linia obrony.Zanim wdrożysz blokady, oszacuj skalę problemu. To ułatwi dobranie „sztywności” polityk i ocenę efektów.
Już prosta kalkulacja typu: 200 000 nadmiarowych żądań × 300 KB odpowiedzi = ~57 GB dodatkowego transferu dziennie (ponad 1,7 TB miesięcznie) – potrafi przełożyć się na zauważalny rachunek, a to tylko warstwa transferu. Dodaj koszt przetwarzania i skok liczby procesów/połączeń przy pikach ruchu.
Nie ma jednej „magicznej kuli”. Skuteczna strategia to warstwowa kontrola: deklaratywne opt-out, filtrowanie, ograniczanie tempa, wzmocnienie cache i selektywne twarde blokady. Zacznij od działań najmniej ryzykownych dla SEO i UX.
Dodaj wpisy dla popularnych botów AI i aktualizuj je w miarę potrzeb. Przykład minimalnego „pakietu startowego”:
# Blokada crawlerów treningowych AI
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
Warto też rozważyć Crawl-delay dla botów, które go honorują (np. Common Crawl):
User-agent: CCBot
Disallow: /
# Jeśli nie chcesz całkowicie blokować:
# Crawl-delay: 2
Uwaga: te wpisy nie blokują dostępu technicznie – informują „grzeczne” boty, aby nie wchodziły. Dają jednak szybki efekt u wielu dużych graczy (OpenAI, Google, Perplexity i in.).
Druga linia to polityki na poziomie CDN/WAF lub serwera aplikacyjnego:
/ lub /search dla podejrzanych user-agentów; podeprzyj to „wychładzaniem” (429 Too Many Requests).Jeśli masz ciągłe nadużycia, możesz wdrożyć blokady na poziomie serwera www (uważaj jednak na SEO i UX):
# Nginx – przykład selektywnego 403 dla wybranych UA
map $http_user_agent $is_ai_bot {
default 0;
~*GPTBot 1;
~*ClaudeBot 1;
~*CCBot 1;
~*PerplexityBot 1;
~*Google-Extended 1;
}
server {
if ($is_ai_bot) { return 403; }
# ...
}
# Apache (.htaccess) – przykład
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|CCBot|PerplexityBot|Google-Extended) [NC]
RewriteRule ^ - [F]
Pamiętaj, że same ciągi User-Agent można podszyć. Dlatego blokady UA traktuj jako wsparcie, a nie jedyną metodę.
Klucz to rozdzielenie „dobrych” botów (Googlebot, Bingbot) od „nadmiernych” fetcherów i crawlerów AI. Praktyczny przepis:
robots.txt, inaczej stracisz SEO.Google-Extended i GPTBot w robots.txt oraz analogiczne dla Perplexity i Anthropic./robots.txt wpisy dla: GPTBot, Google-Extended, CCBot, ClaudeBot, PerplexityBot.Czy blokada AI-botów w robots.txt obniży widoczność w Google?
Nie, jeśli nie blokujesz Googlebota. Wpis Google-Extended dotyczy wykorzystania treści do Gemini/AI, a nie klasycznej indeksacji wyszukiwarki.
Co jeśli bot ignoruje robots.txt?
Wtedy działaj wyżej w łańcuchu: WAF/CDN (rate-limit, challenge, blokada), ewentualnie twarde reguły na serwerze i ograniczenie treści (logowanie, paywall, tokeny).
Czy to już „wojna” z AI?
Nie musi. Celem jest kontrola kosztów i dostępności. Wielu dostawców AI daje oficjalne ścieżki opt-out. Twoja polityka może być selektywna – nie chodzi o zamknięcie wszystkiego, tylko o zachowanie równowagi.
AI-boty nie znikną – będą ewoluować wraz z rynkiem. Dobra wiadomość jest taka, że dziś masz do dyspozycji zestaw skutecznych narzędzi: od deklaratywnych opt-outów po reguły w CDN/WAF i optymalizację cache. Dla małych firm to często różnica między stabilną działalnością a nieprzewidzianymi kosztami hostingu i spadkiem wydajności. Zacznij od policzenia ruchu, wdrożenia podstawowych wpisów w robots.txt i prostych limitów tempa. Potem – iteruj. W świecie botów wygrywa ten, kto regularnie mierzy i dostraja.
Sprawdź naszych specjalistów w praktycznym działaniu. Zobacz co możemy zrobić dla Twojej firmy - przejrzyj ofertę lub skorzystaj z bezpłatnej konsultacji.