seorobotstxt-genai-crawlerstechnical-seo

Comment bloquer les crawlers IA dans robots.txt (2026)

Bloquer 'Claude-Web' ne sert à rien en 2026, ce nom est obsolète. Découvrez comment bloquer les crawlers d'entraînement IA qui comptent tout en conservant vos citations ChatGPT et Perplexity.

Saqib Zahoor

Founder, Molixa

June 2, 202611 min read

Table of contents8 sections

Pour bloquer les crawlers IA dans robots.txt, ajoutez des règles Disallow: / pour les bots d'entraînement actuels avec leurs vrais noms d'agent utilisateur, principalement GPTBot, ClaudeBot, CCBot et Google-Extended. Ignorez les chaînes obsolètes comme Claude-Web, qui ne font plus rien, et laissez les bots de recherche IA autorisés si vous voulez toujours que ChatGPT et Perplexity vous citent.

L'erreur que presque tous les guides commettent est de traiter les "crawlers IA" comme une seule entité à bloquer en bloc. Ce n'est pas le cas. Certains bots scrapent votre contenu pour entraîner des modèles. D'autres récupèrent vos pages en direct pour répondre à la question d'un utilisateur et vous citer. Bloquez le mauvais groupe et vous disparaissez des résultats de recherche IA tandis que les scrapers d'entraînement que vous vouliez arrêter continuent d'ignorer vos règles obsolètes.

Training Bots vs Search Bots: Block One, Keep the Other#

This split is the single most important concept on the page, and it is the one most posts miss. Before you write a single rule, decide which group you actually want to stop.

Crawler purpose	What it does	Should you block it?
Training crawlers	Scrape content to train or improve AI models	Block if you do not want your content used for training
AI search crawlers	Fetch pages live to answer queries and cite sources	Usually allow, blocking removes you from AI answers
Traditional search crawlers	Index pages for Google, Bing, etc.	Never block, this destroys your SEO

Blocking GPTBot stops OpenAI from training on your content, but it does not stop OAI-SearchBot, the agent that powers citations in ChatGPT Search. If you block both, you protect your content from training and disappear from ChatGPT's cited sources. That may be what you want, or it may be a costly accident. Decide deliberately.

The clean default for most publishers: block the training scrapers, keep the search agents. You opt out of free model training while staying visible (and linked) inside AI answers.

Les User-Agents obsolètes qui traînent encore#

Beaucoup de conseils copiés-collés sur les robots.txt bloquent des chaînes user-agent qui ne font plus rien. Si votre fichier les liste en espérant arrêter Anthropic ou d'autres, cela ne fonctionne pas.

Claude-Web est obsolète. C'était un ancien user-agent d'Anthropic et n'est plus la chaîne qui récupère le contenu pour l'entraînement ou la récupération en direct. Le bloquer n'a aucun effet sur les robots actuels d'Anthropic.
anthropic-ai est également dépassé en tant que cible de blocage. Le robot d'entraînement actif d'Anthropic s'identifie comme ClaudeBot.

Si votre objectif est d'arrêter l'entraînement des modèles d'Anthropic, la directive qui compte en 2026 est ClaudeBot, pas Claude-Web ou anthropic-ai. Bloquer les chaînes mortes tout en laissant ClaudeBot autorisé est exactement le schéma d'échec que ce guide existe pour corriger.

Les User-Agents actuels des robots IA (2026)#

Voici les user-agents à connaître, regroupés par fonction. La correspondance des user-agents dans robots.txt est insensible à la casse, et chaque ligne User-agent cible exactement un jeton.

User-agent	Opérateur	Objectif	Choix typique
GPTBot	OpenAI	Collecte de données d'entraînement	Bloquer pour refuser l'entraînement
OAI-SearchBot	OpenAI	Résultats et citations de ChatGPT Search	Autoriser pour apparaître dans les réponses ChatGPT
ChatGPT-User	OpenAI	Récupération en direct quand un utilisateur demande à ChatGPT de visiter une page	Autoriser pour les récupérations à la demande
ClaudeBot	Anthropic	Entraînement et exploration	Bloquer pour refuser l'entraînement
Claude-SearchBot	Anthropic	Indexation de recherche pour Claude	Autoriser pour rester visible dans la recherche Claude
Claude-User	Anthropic	Récupération en direct pour une requête utilisateur	Autoriser pour les récupérations à la demande
Google-Extended	Google	Contrôle de l'entraînement et de l'ancrage Gemini	Bloquer pour refuser l'entraînement Gemini
Googlebot	Google	Index principal de recherche et AI Overviews	Ne jamais bloquer
CCBot	Common Crawl	Jeu de données ouvert utilisé par de nombreux modèles	Bloquer pour refuser le scraping de données
PerplexityBot	Perplexity	Indexation pour les réponses Perplexity	Autoriser pour être cité par Perplexity
Bytespider	ByteDance	Robot d'exploration agressif	Bloquer, ignore souvent les règles
Meta-ExternalAgent	Meta	Robot d'exploration pour l'IA	Bloquer pour refuser l'entraînement Meta

Deux nuances importantes. Premièrement, Google-Extended ne contrôle que l'entraînement et l'ancrage Gemini ; il n'affecte pas votre classement Google normal, qui est géré par Googlebot. Vous pouvez refuser l'entraînement Gemini sans nuire à votre SEO. Deuxièmement, certains robots (Bytespider est le fautif habituel) ont la réputation d'ignorer robots.txt, donc pour ceux-là, vous aurez peut-être besoin d'un blocage au niveau du serveur, pas seulement d'une directive polie.

Les règles robots.txt que vous voulez vraiment#

Voici un fichier robots.txt actuel et prêt à l'emploi qui bloque les principaux crawlers d'entraînement, laisse les agents de recherche IA autorisés pour rester citables, et ne touche jamais aux robots de recherche traditionnels. Placez-le à la racine de votre domaine, à https://votredomaine.com/robots.txt.

# Bloquer les crawlers d'entraînement IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Autoriser les crawlers de recherche IA pour rester cité dans les réponses IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Ne jamais bloquer les moteurs de recherche traditionnels
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Par défaut pour tout le reste
User-agent: *
Allow: /

Sitemap: https://votredomaine.com/sitemap.xml

Si vous voulez bloquer tout entraînement IA et toute recherche IA (désinscription totale, en acceptant de perdre les citations IA), changez les blocs des robots de recherche en Disallow: / également. Si vous voulez seulement vous désinscrire de l'entraînement tout en restant visible au maximum, le fichier ci-dessus est votre modèle. Créez une version personnalisée avec votre propre domaine et vos règles en utilisant le générateur gratuit de robots.txt, qui assemble la syntaxe correcte actuelle pour éviter de coller une chaîne obsolète par accident.

Chaque bloc User-agent nécessite sa propre ligne de directive. Lister Disallow: / une seule fois sous un seul agent ne s'applique pas aux autres, chaque bot que vous voulez bloquer doit avoir un bloc explicite.

Comment bloquer les robots d'IA étape par étape#

Étape 1 : Définissez votre politique#

Choisissez l'une des trois positions. Autoriser tout (vous acceptez l'entraînement et voulez chaque citation). Bloquer l'entraînement, autoriser la recherche (le paramètre par défaut des éditeurs, refuser l'entraînement mais rester cité). Ou tout bloquer (refus total, pas d'utilisation de votre contenu par l'IA et pas de citations IA). Votre robots.txt découle de cette seule décision, alors faites-la en premier.

Étape 2 : Écrivez les blocs user-agent#

Ajoutez une ligne User-agent: pour chaque robot, suivie de Disallow: / pour bloquer ou Allow: / pour autoriser. Utilisez les noms actuels du tableau ci-dessus, GPTBot et ClaudeBot, pas l'ancien Claude-Web. Regroupez vos blocs et vos autorisations pour que le fichier reste lisible. Le générateur gratuit de robots.txt vous permet d'activer chaque bot et produit la syntaxe exacte.

Étape 3 : Ajoutez une balise meta noai ou X-Robots-Tag (optionnel, pour plus de sécurité)#

robots.txt demande aux robots de ne pas récupérer une page. Il ne contrôle pas ce qui arrive au contenu déjà collecté, et les robots bien élevés l'honorent tandis que les mauvais peuvent ne pas le faire. Pour un signal supplémentaire, ajoutez un en-tête HTTP X-Robots-Tag: noai, noimageai ou une balise <meta name="robots" content="noai"> au niveau de la page. La prise en charge n'est pas universelle, mais elle exprime une intention que certains opérateurs respectent.

Étape 4 : Déployez à la racine du domaine et testez#

Téléchargez le fichier pour qu'il soit accessible à https://votredomaine.com/robots.txt exactement. robots.txt ne s'applique qu'à son propre hôte et protocole, et les sous-domaines nécessitent le leur. Récupérez l'URL dans un navigateur pour confirmer qu'elle s'affiche en texte brut, puis vérifiez-la dans le rapport robots.txt de Google Search Console pour vous assurer de ne pas avoir accidentellement bloqué Googlebot. Associez-le à un sitemap XML à jour, que vous pouvez construire avec le générateur gratuit de sitemap, et référencez ce sitemap en bas du fichier comme indiqué ci-dessus.

Bloquer les robots d'IA nuira-t-il à votre référencement ?#

Bloquer les robots d'entraînement d'IA (GPTBot, ClaudeBot, CCBot, Google-Extended) n'a aucun effet sur votre classement traditionnel sur Google ou Bing, car celui-ci est régi par Googlebot et Bingbot, que vous laissez autorisés. Vous pouvez refuser l'entraînement des modèles et conserver exactement le même classement.

Bloquer les robots de recherche d'IA est différent. Si vous interdisez OAI-SearchBot, Claude-SearchBot ou PerplexityBot, vous vous retirez des réponses citées de ces moteurs, ce qui constitue une source croissante de trafic de référence. Et bloquer Googlebot, ce qu'une règle générique imprudente peut faire, est réellement nuisible et vous déindexe de Google. Gardez vos agents de moteur de recherche et de recherche IA autorisés, sauf si vous avez une raison spécifique de ne pas le faire.

L'autre élément de contrôle sur la page qui mérite d'être correctement configuré est vos balises meta, afin qu'un noindex ou une canonique imprudente ne nuise pas aux mêmes pages. Notre générateur de balises meta gratuit vous aide à les auditer. Et si vous vous demandez comment les moteurs d'IA lisent votre contenu au-delà du crawl, notre guide sur le schéma FAQ est-il mort en 2026 couvre les données structurées que ces mêmes moteurs analysent pour vous citer.

Le Bilan#

Bloquer les robots d'IA dans robots.txt fonctionne en 2026, mais seulement si vous utilisez les bons noms et la bonne stratégie. Bloquez les scrappers d'entraînement (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider, Meta-ExternalAgent) avec leurs user-agents actuels, ignorez les chaînes obsolètes comme Claude-Web qui ne font rien, et laissez les agents de recherche IA et les robots de recherche traditionnels autorisés, sauf si vous voulez vraiment disparaître des réponses IA.

Décidez d'abord de votre politique, écrivez des blocages explicites pour chaque bot, déployez à la racine du domaine, et confirmez dans Search Console que Googlebot n'est pas touché. Le générateur gratuit de robots.txt crée un fichier actuel et syntaxiquement correct pour que vous arrêtiez les robots souhaités tout en conservant la visibilité désirée.

Foire aux questions#

Comment bloquer les crawlers IA dans robots.txt ? Ajoutez un bloc User-agent: avec Disallow: / pour chaque crawler d'entraînement que vous souhaitez stopper, en utilisant les noms actuels comme GPTBot, ClaudeBot, CCBot et Google-Extended. Laissez les robots de recherche traditionnels comme Googlebot autorisés, et décidez séparément si vous autorisez les agents de recherche IA comme OAI-SearchBot et PerplexityBot pour rester cité.

Bloquer Claude-Web empêche-t-il Anthropic de s'entraîner sur mon contenu ? Non. Claude-Web est obsolète et son blocage est sans effet. Le crawler d'entraînement actif d'Anthropic s'identifie comme ClaudeBot, c'est donc cet user-agent à interdire en 2026. Bloquer les anciennes chaînes tout en laissant ClaudeBot autorisé est la raison la plus courante pour laquelle les gens pensent s'être désinscrits alors que ce n'est pas le cas.

Bloquer les crawlers IA nuira-t-il à mon classement Google ? Non, tant que vous ne bloquez que les bots IA et laissez Googlebot autorisé. Bloquer GPTBot, ClaudeBot, CCBot ou Google-Extended n'affecte pas les classements traditionnels Google ou Bing, ceux-ci sont contrôlés par Googlebot et Bingbot. Notez que Google-Extended vous désinscrit uniquement de l'entraînement Gemini, pas de la Recherche.

Quelle est la différence entre GPTBot et OAI-SearchBot ? GPTBot collecte des données pour entraîner les modèles d'OpenAI, bloquez-le donc pour vous désinscrire de l'entraînement. OAI-SearchBot récupère les pages pour alimenter les résultats et citations de ChatGPT Search, autorisez-le donc si vous voulez que ChatGPT affiche et lie votre contenu. Bloquer les deux vous désinscrit de l'entraînement et vous retire des réponses citées de ChatGPT.

Les crawlers IA peuvent-ils ignorer mon robots.txt ? Oui. robots.txt est une demande, pas une obligation. Les crawlers réputés comme GPTBot et ClaudeBot le respectent, mais certains, comme Bytespider, ont la réputation de l'ignorer. Pour ceux-ci, ajoutez un en-tête HTTP X-Robots-Tag ou bloquez-les au niveau du serveur ou du pare-feu plutôt que de compter uniquement sur robots.txt.

Dois-je bloquer tous les bots IA ou seulement les bots d'entraînement ? Pour la plupart des éditeurs, bloquez les bots d'entraînement et autorisez les bots de recherche IA. Cela vous désinscrit de l'entraînement gratuit des modèles tout en vous rendant visible et cité dans ChatGPT Search, Claude et Perplexity, une source de trafic croissante. Le blocage total n'a de sens que si vous ne voulez pas que votre contenu soit utilisé par l'IA sous quelque forme que ce soit, y compris les citations.

Try these tools

Try Molixa Tools

50+ free AI tools for content creation, SEO, coding, and more. No signup, no watermark.

Explore all tools