Um KI-Crawler in der robots.txt zu blockieren, fügen Sie Disallow: /-Regeln für die aktuellen Trainings-Bots mit ihren echten User-Agent-Namen hinzu, hauptsächlich GPTBot, ClaudeBot, CCBot und Google-Extended. Überspringen Sie veraltete Strings wie Claude-Web, die nichts mehr bewirken, und lassen Sie die KI-Such-Bots erlaubt, wenn Sie weiterhin von ChatGPT und Perplexity zitiert werden möchten.
Der Fehler, den fast jede Anleitung macht, ist, "KI-Crawler" als eine Sache zu behandeln, die man pauschal blockieren kann. Das sind sie nicht. Einige Bots scrapen Ihre Inhalte, um Modelle zu trainieren. Andere rufen Ihre Seiten live ab, um eine Benutzerfrage zu beantworten und Sie zu zitieren. Blockieren Sie die falsche Gruppe, verschwinden Sie aus den KI-Suchergebnissen, während die Trainings-Scraper, die Sie stoppen wollten, weiterhin Ihre veralteten Regeln ignorieren.
Trainings-Bots vs. Such-Bots: Blockieren Sie den einen, behalten Sie den anderen#
Diese Unterscheidung ist das mit Abstand wichtigste Konzept auf dieser Seite und wird in den meisten Beiträgen übersehen. Bevor Sie eine einzige Regel schreiben, entscheiden Sie, welche Gruppe Sie tatsächlich stoppen möchten.
| Crawler-Zweck | Was er tut | Sollten Sie ihn blockieren? |
|---|---|---|
| Trainings-Crawler | Inhalte scrapen, um KI-Modelle zu trainieren oder zu verbessern | Blockieren, wenn Sie nicht möchten, dass Ihre Inhalte für das Training verwendet werden |
| KI-Such-Crawler | Seiten live abrufen, um Fragen zu beantworten und Quellen zu zitieren | In der Regel erlauben, Blockieren entfernt Sie aus KI-Antworten |
| Traditionelle Such-Crawler | Seiten für Google, Bing usw. indizieren | Niemals blockieren, das zerstört Ihr SEO |
Das Blockieren von GPTBot verhindert, dass OpenAI Ihre Inhalte für das Training nutzt, stoppt jedoch nicht OAI-SearchBot, den Agenten, der Zitate in der ChatGPT-Suche ermöglicht. Wenn Sie beide blockieren, schützen Sie Ihre Inhalte vor dem Training und verschwinden aus den zitierten Quellen von ChatGPT. Das kann gewünscht sein oder ein kostspieliger Fehler. Entscheiden Sie bewusst.
Die saubere Standardeinstellung für die meisten Publisher: Blockieren Sie die Trainings-Scraper, behalten Sie die Such-Agenten. Sie verzichten auf kostenloses Modelltraining, bleiben aber in KI-Antworten sichtbar (und verlinkt).
Die veralteten User-Agents, die noch immer kursieren#
Viele kopierte robots.txt-Ratschläge blockieren User-Agent-Strings, die längst nichts mehr bewirken. Wenn Ihre Datei diese auflistet, um Anthropic oder andere zu stoppen, funktioniert das nicht.
- Claude-Web ist veraltet. Es war ein alter Anthropic-User-Agent und ist nicht mehr der String, der Inhalte für Training oder Live-Abruf abruft. Das Blockieren hat keine Auswirkung auf die aktuellen Crawler von Anthropic.
- anthropic-ai ist ebenfalls als Blockierziel veraltet. Der aktive Training-Crawler von Anthropic identifiziert sich als ClaudeBot.
Wenn Ihr Ziel darin besteht, das Modelltraining von Anthropic zu stoppen, ist die relevante Direktive im Jahr 2026 ClaudeBot, nicht Claude-Web oder anthropic-ai. Das Blockieren der toten Strings, während ClaudeBot erlaubt bleibt, ist genau das Fehlermuster, das dieser Leitfaden beheben soll.
Die aktuellen KI-Crawler User-Agents (2026)#
Hier sind die wichtigsten User-Agents, gruppiert nach ihrer Funktion. Der User-Agent-Abgleich in robots.txt erfolgt case-insensitiv, und jede User-agent-Zeile zielt auf genau ein Token ab.
| User-agent | Betreiber | Zweck | Typische Wahl |
|---|---|---|---|
| GPTBot | OpenAI | Trainingsdatensammlung | Blockieren, um Training zu widersprechen |
| OAI-SearchBot | OpenAI | ChatGPT-Suchergebnisse und Zitate | Erlauben, um in ChatGPT-Antworten zu bleiben |
| ChatGPT-User | OpenAI | Live-Abruf, wenn ein Nutzer ChatGPT bittet, eine Seite zu besuchen | Erlauben für bedarfsgesteuerte Nutzerabrufe |
| ClaudeBot | Anthropic | Training und Crawling | Blockieren, um Training zu widersprechen |
| Claude-SearchBot | Anthropic | Suchindexierung für Claude | Erlauben, um in Claude-Suche sichtbar zu bleiben |
| Claude-User | Anthropic | Live-Abruf für eine Nutzeranfrage | Erlauben für bedarfsgesteuerte Nutzerabrufe |
| Google-Extended | Gemini-Training und Grounding-Kontrolle | Blockieren, um Gemini-Training zu widersprechen | |
| Googlebot | Kern-Suchindex und KI-Übersichten | Niemals blockieren | |
| CCBot | Common Crawl | Offener Datensatz, auf dem viele Modelle trainieren | Blockieren, um Datensatz-Scraping zu widersprechen |
| PerplexityBot | Perplexity | Indexierung für Perplexity-Antworten | Erlauben, um von Perplexity zitiert zu werden |
| Bytespider | ByteDance | Aggressiver Trainingscrawler | Blockieren, ignoriert häufig Regeln |
| Meta-ExternalAgent | Meta | KI-Trainingscrawler | Blockieren, um Meta-Training zu widersprechen |
Zwei wichtige Nuancen. Erstens: Google-Extended steuert nur Gemini-Training und Grounding; es beeinflusst nicht Ihr normales Google-Ranking, das von Googlebot geregelt wird. Sie können dem Gemini-Training widersprechen, ohne Ihre SEO zu beeinträchtigen. Zweitens: Einige Crawler (Bytespider ist der übliche Übeltäter) haben den Ruf, robots.txt zu ignorieren. Daher benötigen Sie für diese möglicherweise eine Blockierung auf Serverebene, nicht nur eine höfliche Anweisung.
Die robots.txt-Regeln, die Sie wirklich brauchen#
Hier ist eine aktuelle, kopierfertige robots.txt, die die wichtigsten Trainings-Crawler blockiert, die KI-Suchagenten erlaubt (damit Sie zitierfähig bleiben) und traditionelle Suchbots unberührt lässt. Platzieren Sie sie im Root-Verzeichnis Ihrer Domain unter https://ihredomain.de/robots.txt.
# KI-Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
# KI-Such-Crawler erlauben (damit Sie in KI-Antworten zitiert werden)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Traditionelle Suchmaschinen niemals blockieren
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Standard für alle anderen
User-agent: *
Allow: /
Sitemap: https://ihredomain.de/sitemap.xml
Wenn Sie sowohl KI-Training als auch KI-Suche komplett blockieren möchten (vollständiger Opt-out, mit dem Verlust von KI-Zitaten), ändern Sie die Suchbot-Blöcke ebenfalls auf Disallow: /. Wenn Sie nur vom Training abmelden und maximal sichtbar bleiben wollen, ist die obige Datei Ihre Vorlage. Erstellen Sie eine angepasste Version mit Ihrer eigenen Domain und Regeln mit dem kostenlosen robots.txt-Generator, der die korrekte aktuelle Syntax zusammenstellt, damit Sie nicht versehentlich eine veraltete Zeichenkette einfügen.
Jeder
User-agent-Block benötigt eine eigene Direktivenzeile. Ein einmaligesDisallow: /unter einem Agenten gilt nicht für die anderen; jeder Bot, den Sie blockieren möchten, braucht einen expliziten Block.
So blockieren Sie KI-Crawler Schritt für Schritt#
Schritt 1: Legen Sie Ihre Richtlinie fest#
Wählen Sie eine von drei Haltungen. Alles erlauben (Sie akzeptieren Training und wünschen jede Zitierung). Training blockieren, Suche erlauben (der übliche Publisher-Standard, kein Training, aber Zitierung bleibt). Oder alles blockieren (vollständiger Opt-out, keine KI-Nutzung Ihrer Inhalte und keine KI-Zitierungen). Ihre robots.txt folgt aus dieser einen Entscheidung, also treffen Sie sie zuerst.
Schritt 2: Schreiben Sie die User-Agent-Blöcke#
Fügen Sie für jeden Crawler eine User-agent:-Zeile ein, gefolgt von Disallow: / zum Blockieren oder Allow: / zum Erlauben. Verwenden Sie die aktuellen Namen aus der obigen Tabelle, GPTBot und ClaudeBot, nicht das veraltete Claude-Web. Gruppieren Sie Ihre Blöcke und Erlaubnisse, damit die Datei lesbar bleibt. Der kostenlose robots.txt-Generator ermöglicht es Ihnen, jeden Bot umzuschalten und gibt die exakte Syntax aus.
Schritt 3: Fügen Sie ein noai-Meta-Tag oder X-Robots-Tag hinzu (optional für doppelte Absicherung)#
robots.txt bittet Crawler, eine Seite nicht abzurufen. Es kontrolliert nicht, was mit bereits gesammelten Inhalten passiert, und wohlerzogene Crawler befolgen es, während böswillige es ignorieren können. Für ein zusätzliches Signal fügen Sie einen X-Robots-Tag: noai, noimageai HTTP-Header oder ein seitenweites <meta name="robots" content="noai">-Tag hinzu. Die Unterstützung ist nicht universell, drückt aber eine Absicht aus, die einige Betreiber respektieren.
Schritt 4: Stellen Sie die Datei auf der Domain-Wurzel bereit und testen Sie sie#
Laden Sie die Datei so hoch, dass sie unter https://ihredomain.de/robots.txt genau erreichbar ist. robots.txt gilt nur für den eigenen Host und das eigene Protokoll, Subdomains benötigen eine eigene Datei. Rufen Sie die URL im Browser auf, um zu bestätigen, dass sie als Klartext geladen wird, und überprüfen Sie sie dann im robots.txt-Bericht der Google Search Console, um sicherzustellen, dass Sie nicht versehentlich Googlebot blockiert haben. Kombinieren Sie sie mit einer aktuellen XML-Sitemap, die Sie mit dem kostenlosen Sitemap-Generator erstellen können, und verweisen Sie auf diese Sitemap am Ende der Datei wie oben gezeigt.
Blockiert das Blockieren von KI-Crawlern Ihr SEO?#
Das Blockieren von KI-Trainingscrawlern (GPTBot, ClaudeBot, CCBot, Google-Extended) hat keinerlei Auswirkungen auf Ihre traditionellen Google- oder Bing-Rankings, da diese von Googlebot und Bingbot gesteuert werden, die Sie weiterhin zulassen. Sie können sich vom Modelltraining abmelden und genauso ranken wie zuvor.
Das Blockieren von KI-Suchcrawlern ist anders. Wenn Sie OAI-SearchBot, Claude-SearchBot oder PerplexityBot verbieten, entfernen Sie sich aus den zitierten Antworten dieser Suchmaschinen, was eine wachsende Quelle für Referral-Traffic darstellt. Und das Blockieren von Googlebot, was eine unvorsichtige Wildcard-Regel bewirken kann, ist wirklich schädlich und führt zur De-Indexierung bei Google. Lassen Sie Ihre Suchmaschinen- und KI-Such-Agents zugelassen, es sei denn, Sie haben einen bestimmten Grund dagegen.
Der andere Teil der On-Page-Kontrolle, den Sie richtig einstellen sollten, sind Ihre Meta-Tags, damit ein unachtsames noindex oder Canonical nicht dieselben Seiten untergräbt. Unser kostenloser Meta-Tag-Generator hilft Ihnen, diese zu überprüfen. Und wenn Sie darüber nachdenken, wie KI-Engines Ihre Inhalte über das Crawlen hinaus lesen, behandelt unser Leitfaden, ob FAQ-Schema 2026 tot ist, die strukturierten Daten, die dieselben Engines parsen, um Sie zu zitieren.
Das Fazit#
Das Blockieren von KI-Crawlern in robots.txt funktioniert 2026, aber nur mit den richtigen Namen und der richtigen Strategie. Blockieren Sie die Trainings-Scraper (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider, Meta-ExternalAgent) mit ihren aktuellen User-Agents, ignorieren Sie veraltete Strings wie Claude-Web, die nichts bewirken, und lassen Sie die KI-Suchagenten und traditionellen Suchbots zu, es sei denn, Sie möchten wirklich aus KI-Antworten verschwinden.
Legen Sie zuerst Ihre Richtlinie fest, schreiben Sie explizite Blöcke für jeden Bot, setzen Sie sie auf der Domain-Root ein und bestätigen Sie in der Search Console, dass Googlebot nicht betroffen ist. Der kostenlose robots.txt-Generator erstellt eine aktuelle, syntaktisch korrekte Datei, damit Sie die gewünschten Crawler stoppen und die gewünschte Sichtbarkeit behalten.
Häufig gestellte Fragen#
Wie blockiere ich KI-Crawler in der robots.txt?
Fügen Sie für jeden Trainings-Crawler, den Sie stoppen möchten, einen User-agent:-Block mit Disallow: / hinzu, und verwenden Sie aktuelle Namen wie GPTBot, ClaudeBot, CCBot und Google-Extended. Lassen Sie traditionelle Such-Bots wie Googlebot erlaubt und entscheiden Sie separat, ob Sie KI-Suchagenten wie OAI-SearchBot und PerplexityBot erlauben, damit Sie zitiert bleiben.
Stoppt das Blockieren von Claude-Web das Training von Anthropic mit meinen Inhalten? Nein. Claude-Web ist veraltet und das Blockieren hat keine Wirkung. Der aktive Trainings-Crawler von Anthropic identifiziert sich als ClaudeBot, daher ist dies der User-Agent, der 2026 gesperrt werden sollte. Das Blockieren alter Strings, während ClaudeBot erlaubt bleibt, ist der häufigste Grund, warum Leute denken, sie hätten widersprochen, obwohl sie es nicht getan haben.
Schadet das Blockieren von KI-Crawlern meinen Google-Rankings? Nein, solange Sie nur KI-Bots blockieren und Googlebot erlaubt lassen. Das Blockieren von GPTBot, ClaudeBot, CCBot oder Google-Extended beeinflusst nicht die traditionellen Google- oder Bing-Rankings, diese werden von Googlebot und Bingbot gesteuert. Beachten Sie, dass Google-Extended Sie nur vom Gemini-Training ausschließt, nicht von der Suche.
Was ist der Unterschied zwischen GPTBot und OAI-SearchBot? GPTBot sammelt Daten zum Trainieren von OpenAIs Modellen, blockieren Sie ihn also, um vom Training ausgeschlossen zu werden. OAI-SearchBot ruft Seiten ab, um ChatGPT-Suchergebnisse und Zitate zu liefern, erlauben Sie ihn also, wenn Sie möchten, dass ChatGPT Ihre Inhalte anzeigt und verlinkt. Das Blockieren beider schließt Sie vom Training aus und entfernt Sie aus den zitierten Antworten von ChatGPT.
Können KI-Crawler meine robots.txt ignorieren? Ja. robots.txt ist eine Bitte, keine Durchsetzung. Seriöse Crawler wie GPTBot und ClaudeBot respektieren sie, aber einige, wie Bytespider, haben den Ruf, sie zu ignorieren. Fügen Sie für diese einen X-Robots-Tag-HTTP-Header hinzu oder blockieren Sie sie auf Server- oder Firewall-Ebene, anstatt sich nur auf robots.txt zu verlassen.
Sollte ich alle KI-Bots oder nur Trainings-Bots blockieren? Für die meisten Publisher: Blockieren Sie Trainings-Bots und erlauben Sie KI-Such-Bots. Das schließt Sie vom kostenlosen Modelltraining aus, während Sie in ChatGPT Search, Claude und Perplexity sichtbar und zitiert bleiben, einer wachsenden Traffic-Quelle. Vollständiges Blockieren ist nur sinnvoll, wenn Sie nicht möchten, dass Ihre Inhalte in irgendeiner Form von KI genutzt werden, einschließlich Zitaten.



