← Baza wiedzy

robots.txt dla botów AI — GPTBot, ClaudeBot, PerplexityBot

Każdy model AI ma swojego bota crawlującego. Oto jak skonfigurować robots.txt żeby być cytowanym (albo świadomie blokować).

Twój plik robots.txt to najstarszy i wciąż najważniejszy sygnał dla crawlerów. W erze AI dochodzą nowe boty — jeśli je blokujesz (świadomie lub przez zapomnienie w domyślnych regułach), żadna optymalizacja LLM-SEO nie pomoże.

Dlaczego to krytyczne

Wiele stron ma w robots.txt regułę Disallow: / dla wszystkich nie-Googlebotów, albo klienci z panelu admina blokują “niepotrzebne crawlery” żeby obniżyć koszty serwera. Efekt: OpenAI, Anthropic i Perplexity nie mają dostępu do treści — a więc nie cytują.

Jeśli chcesz być widoczny w AI, musisz dopuścić:

Minimalna konfiguracja “otwartej” robots.txt

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://twoja-domena.pl/sitemap.xml

To absolutne minimum jeśli chcesz być cytowany przez AI.

Kiedy świadomie blokować?

Czasem blokada ma sens biznesowy:

Przykład selektywnej blokady (blokujemy tylko trening, pozwalamy na search):

# Blokuj training data
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Pozwól na search/citation
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Uwaga: Rozróżnienie “training bot vs search bot” nie zawsze jest respektowane. OpenAI ma GPTBot (training) i ChatGPT-User (live fetching w chat). Perplexity używa głównie PerplexityBot do obu celów.

Częste błędy

Błąd 1 — nieodświeżony WordPress / Joomla z domyślnym robots.txt

Wiele motywów WordPress generuje domyślną regułę:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

To nie blokuje AI (tylko admin panel), więc jest OK.

Ale niektóre wtyczki security (np. Wordfence w trybie paranoid) dodają:

User-agent: *
Disallow: /

To blokuje wszystko, w tym AI. Sprawdź swoją robots.txt!

Błąd 2 — sprzeczne reguły

User-agent: *
Disallow: /

User-agent: GPTBot
Allow: /

Ta konfiguracja działa — bardziej specyficzna reguła wygrywa. Ale niektóre crawlery nie są konsekwentne. Bezpieczniej jest dać Allow: / globalnie i ewentualnie specyficzne Disallow dla sekcji prywatnych.

Błąd 3 — case sensitivity

Niektóre serwery traktują User-agent case-sensitive. GPTBot nie to samo co gptbot. Używaj dokładnie nazw z oficjalnej dokumentacji:

Błąd 4 — zapomniany sitemap

Większość crawlerów AI używa sitemap.xml żeby znaleźć treści. Dodaj:

Sitemap: https://twoja-domena.pl/sitemap.xml

Bez tego bot musi crawlować od strony głównej i klikać linki — dużo wolniej i mniej efektywnie.

Jak sprawdzić że działa

  1. Plik dostępny: curl https://twoja-domena.pl/robots.txt — powinien zwrócić tekst, nie 404.
  2. Weryfikacja per-bot: Użyj narzędzia typu robots-tester lub napisz krótki skrypt sprawdzający parsing dla każdego User-Agent.
  3. Log serwera: Za 24-48h sprawdź logi web serwera — powinieneś zobaczyć hity od GPTBot, ClaudeBot, PerplexityBot.
  4. Selpio AI Readiness — automatycznie wykrywa czy blokujesz ważne boty AI i daje konkretny raport.

Bonus — monitor zmian

Warto dodać robots.txt do systemu kontroli wersji lub monitoringu. Przypadkowa zmiana (np. przez developera który nie wie o AI) może odciąć Cię od cytacji na tygodnie zanim zauważysz spadek widoczności.

Źródła