Standard-Definition
AI-Crawler sind Web-Crawler der KI-Such- und KI-Sprachmodell-Anbieter, die Web-Inhalte für Modell-Trainingsdaten oder Such-Funktionen sammeln. Wichtige Vertreter: GPTBot (OpenAI-Trainingsdaten), OAI-SearchBot (ChatGPT Search), Claude-Web und ClaudeBot (Anthropic), PerplexityBot (Perplexity AI), Google-Extended (Trainings-Crawler für Gemini, getrennt von Googlebot), Applebot-Extended, Bytespider (ByteDance/TikTok), Bingbot (Microsoft Copilot). Steuerung erfolgt über robots.txt pro User-Agent-String — wichtig ist die granulare Steuerung: Trainings-Crawler und Such-Crawler des gleichen Anbieters können getrennt zugelassen oder blockiert werden. Die strategischen Implikationen pro Anbieter unterscheiden sich substanziell.
Was das in der Mandate-Praxis bedeutet
AI-Crawler-Strategie ist eine eigenständige strategische Entscheidung — und wird häufig unterlassen.
Erstens, die Standard-Robots.txt der meisten Sites lässt AI-Crawler implizit zu. Wer keine expliziten Disallow-Anweisungen pro AI-Bot setzt, erlaubt das Crawling für Trainings- und Such-Funktionen. Das ist in den meisten Fällen die strategisch richtige Wahl — die Sichtbarkeits-Vorteile in KI-Antworten überwiegen die Daten-Schutz-Bedenken. Wer explizit alle AI-Crawler blockiert, schließt sich aktiv von der Such-Wahrnehmung der nächsten 5-10 Jahre aus.
Zweitens, die Trennung zwischen Trainings- und Such-Crawlern ist strategisch relevant. GPTBot ist OpenAIs Trainings-Crawler, OAI-SearchBot ist der Such-Crawler — getrennt steuerbar. Google trennt analog Googlebot (Such-Index) und Google-Extended (Gemini-Training). Sites, die Bedenken gegen Trainings-Daten-Nutzung haben, aber Such-Sichtbarkeit wollen, können den Trainings-Crawler blockieren und den Such-Crawler zulassen. Diese differenzierte Steuerung ist die meist sinnvolle Strategie — pauschale Blockierungen sind selten optimal.
Drittens, AI-Crawler entwickeln sich schnell — Pflege ist nötig. Neue Bots erscheinen, bestehende Bots werden umbenannt oder aufgeteilt. Wer eine Robots.txt aus 2023 unverändert betreibt, hat aktuelle AI-Crawler nicht spezifisch berücksichtigt. Calvarius empfiehlt einen jährlichen Robots.txt-Review im Q1 — gleichzeitig mit dem Glossar-Aktualisierungs-Zyklus. In Mandaten mit AI-Sichtbarkeits-Schwerpunkt prüfen wir die Server-Logs zusätzlich monatlich auf neue Bot-User-Agents und entscheiden bei jedem neuen Bot bewusst über Zulassung oder Blockierung.
