seorobotstxt-genai-crawlerstechnical-seo

Como Bloquear Crawlers de IA no robots.txt (2026)

Bloquear 'Claude-Web' em 2026 não funciona, está obsoleto. Veja como bloquear os crawlers de treinamento de IA que importam, mantendo suas citações no ChatGPT e Perplexity.

Saqib Zahoor

Founder, Molixa

June 2, 202611 min read

Table of contents8 sections

Para bloquear rastreadores de IA no robots.txt, adicione regras Disallow: / para os bots de treinamento atuais usando seus nomes reais de user-agent, principalmente GPTBot, ClaudeBot, CCBot e Google-Extended. Ignore strings obsoletas como Claude-Web, que não fazem mais nada, e deixe os bots de busca de IA permitidos se você ainda quiser que ChatGPT e Perplexity citem você.

O erro que quase todo guia comete é tratar "rastreadores de IA" como uma coisa única a ser bloqueada de forma geral. Eles não são. Alguns bots raspam seu conteúdo para treinar modelos. Outros buscam suas páginas ao vivo para responder à pergunta de um usuário e citar você. Bloqueie o grupo errado e você desaparece dos resultados de busca de IA enquanto os raspadores de treinamento que você queria parar continuam ignorando suas regras desatualizadas.

Bots de Treinamento vs Bots de Busca: Bloqueie um, Mantenha o Outro#

Essa divisão é o conceito mais importante da página, e é o que a maioria dos posts ignora. Antes de escrever qualquer regra, decida qual grupo você realmente quer parar.

Propósito do crawler	O que ele faz	Você deve bloqueá-lo?
Crawlers de treinamento	Raspam conteúdo para treinar ou melhorar modelos de IA	Bloqueie se não quiser que seu conteúdo seja usado para treinamento
Crawlers de busca de IA	Buscam páginas ao vivo para responder perguntas e citar fontes	Geralmente permita, bloquear remove você das respostas de IA
Crawlers de busca tradicionais	Indexam páginas para Google, Bing, etc.	Nunca bloqueie, isso destrói seu SEO

Bloquear o GPTBot impede que a OpenAI treine com seu conteúdo, mas não impede o OAI-SearchBot, o agente que alimenta as citações no ChatGPT Search. Se você bloquear ambos, protege seu conteúdo de treinamento e desaparece das fontes citadas do ChatGPT. Isso pode ser o que você quer, ou pode ser um acidente custoso. Decida deliberadamente.

O padrão limpo para a maioria dos editores: bloqueie os raspadores de treinamento, mantenha os agentes de busca. Você opta por não participar do treinamento gratuito de modelos enquanto permanece visível (e linkado) dentro das respostas de IA.

Os User-Agents Obsoletos que Ainda Circulam#

Muitos conselhos copiados e colados sobre robots.txt bloqueiam strings de user-agent que já não fazem nada. Se o seu arquivo lista estes esperando que parem a Anthropic ou outros, isso não funciona.

Claude-Web está obsoleto. Era um user-agent antigo da Anthropic e já não é a string que busca conteúdo para treinamento ou recuperação ao vivo. Bloqueá-lo não tem efeito sobre os crawlers atuais da Anthropic.
anthropic-ai também está desatualizado como alvo de bloqueio. O crawler de treinamento ativo da Anthropic se identifica como ClaudeBot.

Se seu objetivo é impedir o treinamento de modelos da Anthropic, a diretiva que importa em 2026 é ClaudeBot, não Claude-Web ou anthropic-ai. Bloquear as strings mortas enquanto permite o ClaudeBot é exatamente o padrão de falha que este guia existe para corrigir.

Os User-Agents Atuais de Crawlers de IA (2026)#

Aqui estão os user-agents que vale a pena conhecer, agrupados pelo que fazem. A correspondência de user-agent no robots.txt não diferencia maiúsculas de minúsculas, e cada linha User-agent tem como alvo exatamente um token.

User-agent	Operador	Propósito	Escolha típica
GPTBot	OpenAI	Coleta de dados de treinamento	Bloquear para optar por não participar do treinamento
OAI-SearchBot	OpenAI	Resultados e citações do ChatGPT Search	Permitir para permanecer nas respostas do ChatGPT
ChatGPT-User	OpenAI	Busca ao vivo quando um usuário pede ao ChatGPT para visitar uma página	Permitir para buscas sob demanda do usuário
ClaudeBot	Anthropic	Treinamento e rastreamento	Bloquear para optar por não participar do treinamento
Claude-SearchBot	Anthropic	Indexação de busca para Claude	Permitir para permanecer visível na busca do Claude
Claude-User	Anthropic	Busca ao vivo para uma solicitação do usuário	Permitir para buscas sob demanda do usuário
Google-Extended	Google	Controle de treinamento e fundamentação do Gemini	Bloquear para optar por não participar do treinamento do Gemini
Googlebot	Google	Índice principal de busca e AI Overviews	Nunca bloquear
CCBot	Common Crawl	Conjunto de dados aberto no qual muitos modelos treinam	Bloquear para optar por não participar da raspagem de dados
PerplexityBot	Perplexity	Indexação para respostas do Perplexity	Permitir para ser citado pelo Perplexity
Bytespider	ByteDance	Rastreador de treinamento agressivo	Bloquear, frequentemente ignora regras
Meta-ExternalAgent	Meta	Rastreador de treinamento de IA	Bloquear para optar por não participar do treinamento da Meta

Duas nuances importantes. Primeiro, Google-Extended controla apenas o treinamento e a fundamentação do Gemini; não afeta seu ranking normal do Google, que é governado pelo Googlebot. Você pode optar por não participar do treinamento do Gemini sem prejudicar o SEO. Segundo, alguns rastreadores (Bytespider é o infrator comum) têm reputação de ignorar o robots.txt, então para esses você pode precisar de bloqueio no nível do servidor, não apenas uma diretiva educada.

As Regras de robots.txt Que Você Realmente Quer#

Aqui está um robots.txt atual e pronto para uso que bloqueia os principais crawlers de treinamento, mantém os agentes de busca de IA permitidos para que você continue sendo citado e nunca afeta os bots de busca tradicionais. Coloque-o na raiz do seu domínio, em https://seudominio.com/robots.txt.

# Bloquear crawlers de treinamento de IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Permitir crawlers de busca de IA para continuar sendo citado em respostas de IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Nunca bloquear mecanismos de busca tradicionais
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Padrão para todo o resto
User-agent: *
Allow: /

Sitemap: https://seudominio.com/sitemap.xml

Se você quiser bloquear todo treinamento de IA e toda busca de IA (opt-out total, aceitando perder citações de IA), mude os blocos de busca para Disallow: / também. Se você quiser apenas optar por não participar do treinamento enquanto permanece maximamente visível, o arquivo acima é seu modelo. Crie uma versão personalizada com seu próprio domínio e regras usando o gerador gratuito de robots.txt, que monta a sintaxe correta atual para que você não cole acidentalmente uma string desatualizada.

Cada bloco User-agent precisa de sua própria linha de diretiva. Listar Disallow: / uma vez sob um único agente não se aplica aos outros; cada bot que você deseja bloquear precisa de um bloqueio explícito.

Como Bloquear Rastreadores de IA Passo a Passo#

Passo 1: Defina sua política#

Escolha uma de três posturas. Permita tudo (você aceita treinamento e quer todas as citações). Bloqueie treinamento, permita busca (o padrão comum de editores, opte por não treinar mas mantenha-se citado). Ou bloqueie tudo (exclusão total, sem uso de IA do seu conteúdo e sem citações de IA). Seu robots.txt segue dessa única decisão, então tome-a primeiro.

Passo 2: Escreva os bloqueios de user-agent#

Adicione uma linha User-agent: para cada rastreador, seguida por Disallow: / para bloquear ou Allow: / para permitir. Use os nomes atuais da tabela acima, GPTBot e ClaudeBot, não o obsoleto Claude-Web. Agrupe seus bloqueios e suas permissões para que o arquivo permaneça legível. O gerador gratuito de robots.txt permite alternar cada bot e gera a sintaxe exata.

Passo 3: Adicione uma meta tag noai ou X-Robots-Tag (opcional, cinto e suspensórios)#

O robots.txt pede que rastreadores não busquem uma página. Ele não controla o que acontece com o conteúdo já coletado, e rastreadores bem-comportados o respeitam, enquanto os mal-intencionados podem não respeitar. Para um sinal extra, adicione um cabeçalho HTTP X-Robots-Tag: noai, noimageai ou uma tag <meta name="robots" content="noai"> no nível da página. O suporte não é universal, mas expressa a intenção que alguns operadores respeitam.

Passo 4: Implante na raiz do domínio e teste#

Faça o upload do arquivo para que ele seja resolvido exatamente em https://seudominio.com/robots.txt, o robots.txt só se aplica ao seu próprio host e protocolo, e subdomínios precisam do seu próprio. Acesse a URL em um navegador para confirmar que carrega como texto simples, depois verifique no relatório de robots.txt do Google Search Console para garantir que você não bloqueou acidentalmente o Googlebot. Combine-o com um sitemap XML atual, que você pode criar com o gerador gratuito de sitemap, e faça referência a esse sitemap no final do arquivo, conforme mostrado acima.

Bloquear Crawlers de IA Prejudica Seu SEO?#

Bloquear crawlers de treinamento de IA (GPTBot, ClaudeBot, CCBot, Google-Extended) não tem efeito sobre suas classificações tradicionais no Google ou Bing, pois estas são governadas pelo Googlebot e Bingbot, que você mantém permitidos. Você pode optar por não participar do treinamento de modelos e classificar exatamente como antes.

Bloquear crawlers de busca de IA é diferente. Se você desabilitar OAI-SearchBot, Claude-SearchBot ou PerplexityBot, você se remove das respostas citadas desses mecanismos, que são uma fonte crescente de tráfego de referência. E bloquear o Googlebot, o que uma regra wildcard descuidada pode fazer, é genuinamente prejudicial e desindexa você do Google. Mantenha seus agentes de busca e busca de IA permitidos, a menos que tenha um motivo específico para não fazê-lo.

A outra parte do controle on-page que vale a pena configurar corretamente são suas meta tags, para que um noindex ou canonical descuidado não prejudique as mesmas páginas. Nosso gerador de meta tags gratuito ajuda você a auditá-las. E se você está pensando em como os mecanismos de IA leem seu conteúdo além do rastreamento, nosso guia sobre se o FAQ schema está morto em 2026 aborda os dados estruturados que esses mesmos mecanismos analisam para citar você.

Conclusão#

Bloquear crawlers de IA no robots.txt funciona em 2026, mas apenas se você usar os nomes certos e a estratégia correta. Bloqueie os scrapers de treinamento (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider, Meta-ExternalAgent) pelos seus user-agents atuais, ignore strings obsoletas como Claude-Web que não fazem nada, e mantenha os agentes de busca de IA e os bots de busca tradicionais permitidos, a menos que você realmente queira desaparecer das respostas de IA.

Decida sua política primeiro, escreva bloqueios explícitos para cada bot, implemente na raiz do domínio e confirme no Search Console que o Googlebot não foi afetado. O gerador gratuito de robots.txt cria um arquivo atual e sintaticamente correto para que você pare os crawlers que deseja e mantenha a visibilidade que quer.

Perguntas Frequentes#

Como bloqueio rastreadores de IA no robots.txt? Adicione um bloco User-agent: com Disallow: / para cada rastreador de treinamento que deseja parar, usando nomes atuais como GPTBot, ClaudeBot, CCBot e Google-Extended. Mantenha bots de busca tradicionais como Googlebot permitidos e decida separadamente se permite agentes de busca de IA como OAI-SearchBot e PerplexityBot para continuar sendo citado.

Bloquear Claude-Web impede a Anthropic de treinar com meu conteúdo? Não. Claude-Web está obsoleto e bloqueá-lo não tem efeito. O rastreador de treinamento ativo da Anthropic se identifica como ClaudeBot, então esse é o user-agent a ser desabilitado em 2026. Bloquear strings antigas enquanto deixa ClaudeBot permitido é o motivo mais comum pelo qual as pessoas acham que optaram por não participar, quando na verdade não o fizeram.

Bloquear rastreadores de IA prejudica meu ranking no Google? Não, desde que você bloqueie apenas bots de IA e mantenha o Googlebot permitido. Bloquear GPTBot, ClaudeBot, CCBot ou Google-Extended não afeta os rankings tradicionais do Google ou Bing, que são controlados por Googlebot e Bingbot. Observe que Google-Extended apenas impede o treinamento do Gemini, não a busca.

Qual é a diferença entre GPTBot e OAI-SearchBot? GPTBot coleta dados para treinar os modelos da OpenAI, então bloqueie-o para optar por não participar do treinamento. OAI-SearchBot busca páginas para alimentar os resultados e citações do ChatGPT Search, então permita-o se quiser que o ChatGPT exiba e linke seu conteúdo. Bloquear ambos impede o treinamento e remove seu conteúdo das respostas citadas do ChatGPT.

Rastreadores de IA podem ignorar meu robots.txt? Sim. robots.txt é uma solicitação, não uma imposição. Rastreadores respeitáveis como GPTBot e ClaudeBot o respeitam, mas alguns, como Bytespider, têm reputação de ignorá-lo. Para esses, adicione um cabeçalho HTTP X-Robots-Tag ou bloqueie-os no nível do servidor ou firewall, em vez de confiar apenas no robots.txt.

Devo bloquear todos os bots de IA ou apenas bots de treinamento? Para a maioria dos editores, bloqueie bots de treinamento e permita bots de busca de IA. Isso impede o treinamento gratuito de modelos, mantendo você visível e citado no ChatGPT Search, Claude e Perplexity, uma fonte crescente de tráfego. O bloqueio total faz sentido apenas se você não quiser que seu conteúdo seja usado por IA de nenhuma forma, incluindo citações.

Try these tools

Try Molixa Tools

50+ free AI tools for content creation, SEO, coding, and more. No signup, no watermark.

Explore all tools