W czym możemy pomóc?

Duże obciążenie serwera przez crawlery AI

Wielu użytkowników zgłasza obciążenia serwera przez „tajemnicze adresy IP” :)

Z przesłanych zgłoszeń wynika, że są to adresy powiązane z crawleraami AI. Przykładowe IP ze zgłoszeń:

20.171.207.xxx, czyli np.: 

20.171.207.150 
20.171.207.151
20.171.207.178
20.171.207.169
20.171.207.125

Połączenia, które wykonują adresy IP podpisują się jako: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

Jak zablokować te adresy:

Dla całego  serwera:

  • IP można zablokować w panelu podając 20.171.207.0/24, zablokuje to wszystkie adresy od 20.171.207.1 do 20.171.207.254 

Dla domeny:

  • odpowiednio zmodyfikować plik robots.txt.
  • odpowiednio zmodyfikować plik pliku .htaccess*

Czy blokować te adresy?

Decyzja należy do użytkowników , poniżej podajemy przegląd robotów OpenAI:

"OpenAI używa robotów indeksujących („robotów”) i agentów użytkownika do wykonywania działań dla swoich produktów, automatycznie lub na żądanie użytkownika. OpenAI używa następujących tagów robots.txt, aby umożliwić webmasterom zarządzanie sposobem, w jaki ich witryny i treści współpracują ze sztuczną inteligencją. Każde ustawienie jest niezależne od pozostałych – na przykład webmaster może zezwolić OAI-SearchBot na wyświetlanie się w wynikach wyszukiwania, jednocześnie nie zezwalając GPTbot na wskazywanie, że przeszukana treść nie powinna być używana do trenowania generatywnych modeli bazowych sztucznej inteligencji OpenAI. W przypadku wyników wyszukiwania należy pamiętać, że dostosowanie się naszych systemów może potrwać około 24 godzin od aktualizacji pliku robots.txt witryny."

Agent użytkownika

Opis i szczegóły

OAI-SzukajBota

OAI-SearchBot służy do wyszukiwania. OAI-SearchBot służy do łączenia się z witrynami i wyświetlania ich w wynikach wyszukiwania w funkcjach wyszukiwania ChatGPT. Nie służy do indeksowania treści w celu trenowania generatywnych modeli bazowych AI OpenAI. Aby zapewnić wyświetlanie witryny w wynikach wyszukiwania, zalecamy zezwolenie na OAI-SearchBot w pliku robots.txt witryny i zezwolenie na żądania z naszych opublikowanych zakresów IP poniżej.

Pełny ciąg user-agent będzie zawierał ; OAI-SearchBot/1.0; +https://openai.com/searchbot

Opublikowane adresy IP: https://openai.com/searchbot.json

ChatGPT-Użytkownik

ChatGPT-User jest przeznaczony do działań użytkownika w ChatGPT i Custom GPT . Gdy użytkownicy zadają pytanie ChatGPT lub CustomGPT, może on odwiedzić stronę internetową z agentem ChatGPT-User. Użytkownicy ChatGPT mogą również wchodzić w interakcje z aplikacjami zewnętrznymi za pośrednictwem GPT Actions . ChatGPT-User reguluje, do których witryn można kierować te żądania użytkownika. Nie jest on używany do automatycznego przeszukiwania sieci ani do przeszukiwania treści w celu generatywnego szkolenia AI.

Pełny ciąg user-agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Opublikowane adresy IP: https://openai.com/chatgpt-user.json

GPTbot

GPTBot jest używany, aby uczynić nasze generatywne modele bazowe AI bardziej użytecznymi i bezpiecznymi. Jest używany do indeksowania treści, które mogą być używane do trenowania naszych generatywnych modeli bazowych AI. Niedozwolone GPTBot oznacza, że ​​treść witryny nie powinna być używana do trenowania generatywnych modeli bazowych AI.

Pełny ciąg user-agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot

Opublikowane adresy IP: https://openai.com/gptbot.json

 

 

Źródło: https://platform.openai.com/docs/bots/


 


* Modyfikacja pliku htaccess: 

Blokada wszystkich adresów IP

  • Deny from all

Blokada wszystkich adresów IP z wyjątkiem wybranych

  • Order deny,allow
  • Deny from all
  • Allow from XX.XXX.XX.XX

Blokada wybranych adresów IP

  • Order deny,allow
  • Deny from XX.XXX.XX.XX
  • Deny from XX.XXX.XX.XX
  • allow from all

W miejsce XX.XXX.XX.XX o powinieneś wstawić adresy IP, którym chcesz ograniczyć dostęp. Dodając kolejne wpisy „Deny from XX.XXX.XX.XX„ masz możliwość blokady dowolnej ilości adresów IP.

Powiązane artykuły

Stosujemy pliki cookies. Jeśli nie blokujesz tych plików (samodzielnie przez ustawienia przeglądarki), to zgadzasz się na ich użycie oraz zapisanie w pamięci urządzenia. Zobacz politykę cookies.
Przewiń do góry