Twój plik robots.txt to najstarszy i wciąż najważniejszy sygnał dla crawlerów. W erze AI dochodzą nowe boty — jeśli je blokujesz (świadomie lub przez zapomnienie w domyślnych regułach), żadna optymalizacja LLM-SEO nie pomoże.
Dlaczego to krytyczne
Wiele stron ma w robots.txt regułę Disallow: / dla wszystkich nie-Googlebotów, albo klienci z panelu admina blokują “niepotrzebne crawlery” żeby obniżyć koszty serwera. Efekt: OpenAI, Anthropic i Perplexity nie mają dostępu do treści — a więc nie cytują.
Jeśli chcesz być widoczny w AI, musisz dopuścić:
GPTBot(OpenAI)ClaudeBot(Anthropic)Claude-Web(Anthropic, tryb research)PerplexityBot(Perplexity)Google-Extended(Google AI training — nie miesza się z Googlebot)anthropic-ai(starszy identyfier Anthropic)
Minimalna konfiguracja “otwartej” robots.txt
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://twoja-domena.pl/sitemap.xml
To absolutne minimum jeśli chcesz być cytowany przez AI.
Kiedy świadomie blokować?
Czasem blokada ma sens biznesowy:
- Publiczne źródła danych premium — jeśli Twoje treści są Twoim produktem (np. wiadomości premium, baza danych prawnych) — nie chcesz żeby AI trenowało na nich za darmo.
- Dane osobowe — strony katalogowe z danymi osób powinny blokować AI training.
- Treści objęte prawami autorskimi — artykuły prasowe, książki, w których chcesz kontrolować dystrybucję.
Przykład selektywnej blokady (blokujemy tylko trening, pozwalamy na search):
# Blokuj training data
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# Pozwól na search/citation
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
Uwaga: Rozróżnienie “training bot vs search bot” nie zawsze jest respektowane. OpenAI ma GPTBot (training) i ChatGPT-User (live fetching w chat). Perplexity używa głównie PerplexityBot do obu celów.
Częste błędy
Błąd 1 — nieodświeżony WordPress / Joomla z domyślnym robots.txt
Wiele motywów WordPress generuje domyślną regułę:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
To nie blokuje AI (tylko admin panel), więc jest OK.
Ale niektóre wtyczki security (np. Wordfence w trybie paranoid) dodają:
User-agent: *
Disallow: /
To blokuje wszystko, w tym AI. Sprawdź swoją robots.txt!
Błąd 2 — sprzeczne reguły
User-agent: *
Disallow: /
User-agent: GPTBot
Allow: /
Ta konfiguracja działa — bardziej specyficzna reguła wygrywa. Ale niektóre crawlery nie są konsekwentne. Bezpieczniej jest dać Allow: / globalnie i ewentualnie specyficzne Disallow dla sekcji prywatnych.
Błąd 3 — case sensitivity
Niektóre serwery traktują User-agent case-sensitive. GPTBot nie to samo co gptbot. Używaj dokładnie nazw z oficjalnej dokumentacji:
GPTBot(nieGPT-Bot, nieOpenAI-Bot)ClaudeBot(nieClaude-Bot, nieAnthropic-Bot)PerplexityBot(niePerplexity)
Błąd 4 — zapomniany sitemap
Większość crawlerów AI używa sitemap.xml żeby znaleźć treści. Dodaj:
Sitemap: https://twoja-domena.pl/sitemap.xml
Bez tego bot musi crawlować od strony głównej i klikać linki — dużo wolniej i mniej efektywnie.
Jak sprawdzić że działa
- Plik dostępny:
curl https://twoja-domena.pl/robots.txt— powinien zwrócić tekst, nie 404. - Weryfikacja per-bot: Użyj narzędzia typu robots-tester lub napisz krótki skrypt sprawdzający parsing dla każdego User-Agent.
- Log serwera: Za 24-48h sprawdź logi web serwera — powinieneś zobaczyć hity od GPTBot, ClaudeBot, PerplexityBot.
- Selpio AI Readiness — automatycznie wykrywa czy blokujesz ważne boty AI i daje konkretny raport.
Bonus — monitor zmian
Warto dodać robots.txt do systemu kontroli wersji lub monitoringu. Przypadkowa zmiana (np. przez developera który nie wie o AI) może odciąć Cię od cytacji na tygodnie zanim zauważysz spadek widoczności.