seorobotstxt-genai-crawlerstechnical-seo

Cómo bloquear rastreadores de IA en robots.txt (2026)

Bloquear 'Claude-Web' no sirve en 2026, está obsoleto. Aquí te mostramos cómo bloquear los rastreadores de entrenamiento de IA que importan, manteniendo tus citas en ChatGPT y Perplexity.

Saqib Zahoor

Founder, Molixa

June 2, 202611 min read

Table of contents8 sections

Para bloquear los rastreadores de IA en robots.txt, añade reglas Disallow: / para los bots de entrenamiento actuales usando sus nombres reales de agente de usuario, principalmente GPTBot, ClaudeBot, CCBot y Google-Extended. Omite cadenas obsoletas como Claude-Web, que ya no tienen efecto, y deja permitidos los bots de búsqueda de IA si aún deseas que ChatGPT y Perplexity te citen.

El error que cometen casi todas las guías es tratar a los "rastreadores de IA" como una sola cosa para bloquearlos de forma general. No lo son. Algunos bots extraen tu contenido para entrenar modelos. Otros obtienen tus páginas en vivo para responder a la pregunta de un usuario y citarte. Bloquea al grupo equivocado y desaparecerás de los resultados de búsqueda de IA, mientras que los raspadores de entrenamiento que querías detener siguen ignorando tus reglas desactualizadas.

Training Bots vs Search Bots: Block One, Keep the Other#

This split is the single most important concept on the page, and it is the one most posts miss. Before you write a single rule, decide which group you actually want to stop.

Crawler purpose	What it does	Should you block it?
Training crawlers	Scrape content to train or improve AI models	Block if you do not want your content used for training
AI search crawlers	Fetch pages live to answer queries and cite sources	Usually allow, blocking removes you from AI answers
Traditional search crawlers	Index pages for Google, Bing, etc.	Never block, this destroys your SEO

Blocking GPTBot stops OpenAI from training on your content, but it does not stop OAI-SearchBot, the agent that powers citations in ChatGPT Search. If you block both, you protect your content from training and disappear from ChatGPT's cited sources. That may be what you want, or it may be a costly accident. Decide deliberately.

The clean default for most publishers: block the training scrapers, keep the search agents. You opt out of free model training while staying visible (and linked) inside AI answers.

Los User-Agents Obsoletos que Siguen Circulando#

Muchos consejos copiados y pegados sobre robots.txt bloquean cadenas de user-agent que ya no hacen nada. Si tu archivo las incluye esperando detener a Anthropic u otros, no funciona.

Claude-Web está obsoleto. Era un user-agent antiguo de Anthropic y ya no es la cadena que obtiene contenido para entrenamiento o recuperación en vivo. Bloquearlo no tiene efecto en los rastreadores actuales de Anthropic.
anthropic-ai también está desactualizado como objetivo de bloqueo. El rastreador de entrenamiento activo de Anthropic se identifica como ClaudeBot.

Si tu objetivo es detener el entrenamiento de modelos de Anthropic, la directiva que importa en 2026 es ClaudeBot, no Claude-Web ni anthropic-ai. Bloquear las cadenas muertas mientras se permite a ClaudeBot es el patrón de fallo exacto que esta guía existe para corregir.

Los User-Agents Actuales de Rastreadores de IA (2026)#

Estos son los user-agents que vale la pena conocer, agrupados por su función. La coincidencia de user-agents en robots.txt no distingue mayúsculas de minúsculas, y cada línea User-agent apunta exactamente a un token.

User-agent	Operador	Propósito	Elección típica
GPTBot	OpenAI	Recopilación de datos de entrenamiento	Bloquear para no participar en el entrenamiento
OAI-SearchBot	OpenAI	Resultados y citas de ChatGPT Search	Permitir para aparecer en respuestas de ChatGPT
ChatGPT-User	OpenAI	Obtención en vivo cuando un usuario pide a ChatGPT visitar una página	Permitir para obtenciones bajo demanda
ClaudeBot	Anthropic	Entrenamiento y rastreo	Bloquear para no participar en el entrenamiento
Claude-SearchBot	Anthropic	Indexación de búsqueda para Claude	Permitir para mantenerse visible en la búsqueda de Claude
Claude-User	Anthropic	Obtención en vivo para una solicitud de usuario	Permitir para obtenciones bajo demanda
Google-Extended	Google	Control de entrenamiento y fundamentación de Gemini	Bloquear para no participar en el entrenamiento de Gemini
Googlebot	Google	Índice principal de Búsqueda y AI Overviews	Nunca bloquear
CCBot	Common Crawl	Conjunto de datos abierto con el que se entrenan muchos modelos	Bloquear para no participar en el raspado de datos
PerplexityBot	Perplexity	Indexación para respuestas de Perplexity	Permitir para ser citado por Perplexity
Bytespider	ByteDance	Rastreador de entrenamiento agresivo	Bloquear, a menudo ignora las reglas
Meta-ExternalAgent	Meta	Rastreador de entrenamiento de IA	Bloquear para no participar en el entrenamiento de Meta

Dos matices importantes. Primero, Google-Extended solo controla el entrenamiento y la fundamentación de Gemini; no afecta tu posicionamiento normal en Google, que es gobernado por Googlebot. Puedes optar por no participar en el entrenamiento de Gemini sin dañar tu SEO. Segundo, algunos rastreadores (Bytespider es el infractor habitual) tienen fama de ignorar robots.txt, por lo que para esos puede que necesites bloqueo a nivel de servidor, no solo una directiva educada.

Las reglas de robots.txt que realmente necesitas#

Aquí tienes un robots.txt actual y listo para copiar que bloquea los principales rastreadores de entrenamiento, permite a los agentes de búsqueda de IA para que sigas siendo citable y nunca toca los bots de búsqueda tradicionales. Colócalo en la raíz de tu dominio, en https://tudominio.com/robots.txt.

# Bloquear rastreadores de entrenamiento de IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Permitir rastreadores de búsqueda de IA para seguir siendo citado en respuestas de IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Nunca bloquear motores de búsqueda tradicionales
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Predeterminado para todo lo demás
User-agent: *
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Si quieres bloquear todo el entrenamiento de IA y toda la búsqueda de IA (exclusión total, aceptando perder citas de IA), cambia los bloques de bots de búsqueda a Disallow: / también. Si solo quieres excluirte del entrenamiento mientras mantienes la máxima visibilidad, el archivo anterior es tu plantilla. Crea una versión personalizada con tu propio dominio y reglas usando el generador de robots.txt gratuito, que ensambla la sintaxis correcta actual para que no pegues una cadena obsoleta por accidente.

Cada bloque User-agent necesita su propia línea de directiva. Listar Disallow: / una vez bajo un solo agente no se aplica a los demás; cada bot que quieras bloquear necesita un bloque explícito.

Cómo bloquear rastreadores de IA paso a paso#

Paso 1: Decide tu política#

Elige una de tres posturas. Permitir todo (aceptas el entrenamiento y quieres cada cita). Bloquear entrenamiento, permitir búsqueda (el valor predeterminado común de los editores, optar por no participar en el entrenamiento pero mantener las citas). O bloquear todo (exclusión total, sin uso de IA de tu contenido y sin citas de IA). Tu robots.txt se deriva de esa única decisión, así que tómala primero.

Paso 2: Escribe los bloques de agente de usuario#

Agrega una línea User-agent: para cada rastreador, seguida de Disallow: / para bloquear o Allow: / para permitir. Usa los nombres actuales de la tabla anterior, GPTBot y ClaudeBot, no el obsoleto Claude-Web. Agrupa tus bloques y tus permisos para que el archivo sea legible. El generador de robots.txt gratuito te permite alternar cada bot y genera la sintaxis exacta.

Paso 3: Agrega una metaetiqueta noai o X-Robots-Tag (opcional, por si acaso)#

robots.txt solicita a los rastreadores que no obtengan una página. No controla lo que sucede con el contenido ya recopilado, y los rastreadores bien comportados lo respetan mientras que los malos pueden no hacerlo. Para una señal adicional, agrega un encabezado HTTP X-Robots-Tag: noai, noimageai o una etiqueta <meta name="robots" content="noai"> a nivel de página. El soporte no es universal, pero expresa una intención que algunos operadores respetan.

Paso 4: Implementa en la raíz del dominio y prueba#

Sube el archivo para que se resuelva exactamente en https://tudominio.com/robots.txt, robots.txt solo se aplica a su propio host y protocolo, y los subdominios necesitan el suyo. Obtén la URL en un navegador para confirmar que se carga como texto plano, luego verifícalo en el informe de robots.txt de Google Search Console para asegurarte de que no hayas bloqueado accidentalmente a Googlebot. Combínalo con un sitemap XML actualizado, que puedes crear con el generador de sitemaps gratuito, y referencia ese sitemap al final del archivo como se muestra arriba.

¿Bloquear los rastreadores de IA dañará tu SEO?#

Bloquear los rastreadores de entrenamiento de IA (GPTBot, ClaudeBot, CCBot, Google-Extended) no afecta tus rankings tradicionales en Google o Bing, ya que estos son controlados por Googlebot y Bingbot, a los que mantienes permitidos. Puedes optar por no participar en el entrenamiento de modelos y posicionarte exactamente como antes.

Bloquear los rastreadores de búsqueda de IA es diferente. Si deshabilitas OAI-SearchBot, Claude-SearchBot o PerplexityBot, te eliminas de las respuestas citadas de esos motores, que son una fuente creciente de tráfico de referencia. Y bloquear Googlebot, lo que una regla comodín descuidada puede hacer, es realmente perjudicial y te desindexa de Google. Mantén tus agentes de búsqueda y búsqueda de IA permitidos a menos que tengas una razón específica para no hacerlo.

El otro elemento de control en la página que vale la pena configurar correctamente son tus metaetiquetas, para que un descuidado noindex o canonical no socave las mismas páginas. Nuestro generador de metaetiquetas gratuito te ayuda a auditarlas. Y si estás pensando en cómo los motores de IA leen tu contenido más allá del rastreo, nuestra guía sobre si el esquema FAQ está muerto en 2026 cubre los datos estructurados que esos mismos motores analizan para citarte.

El resultado final#

Bloquear los rastreadores de IA en robots.txt funciona en 2026, pero solo si usas los nombres correctos y la estrategia adecuada. Bloquea los scrapers de entrenamiento (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider, Meta-ExternalAgent) con sus user-agents actuales, ignora cadenas obsoletas como Claude-Web que no hacen nada, y mantén los agentes de búsqueda de IA y los bots de búsqueda tradicionales permitidos a menos que quieras desaparecer de las respuestas de IA.

Decide tu política primero, escribe bloqueos explícitos para cada bot, despliega en la raíz del dominio y confirma en Search Console que Googlebot no se ve afectado. El generador gratuito de robots.txt crea un archivo actual y sintácticamente correcto para que detengas los rastreadores que deseas y mantengas la visibilidad que quieres.

Preguntas Frecuentes#

¿Cómo bloqueo los rastreadores de IA en robots.txt? Agrega un bloqueo User-agent: con Disallow: / para cada rastreador de entrenamiento que quieras detener, usando nombres actuales como GPTBot, ClaudeBot, CCBot y Google-Extended. Mantén permitidos los bots de búsqueda tradicionales como Googlebot, y decide por separado si permites agentes de búsqueda de IA como OAI-SearchBot y PerplexityBot para que sigas siendo citado.

¿Bloquear Claude-Web evita que Anthropic entrene con mi contenido? No. Claude-Web está obsoleto y bloquearlo no tiene efecto. El rastreador de entrenamiento activo de Anthropic se identifica como ClaudeBot, por lo que ese es el user-agent que debes deshabilitar en 2026. Bloquear las cadenas antiguas mientras dejas ClaudeBot permitido es la razón más común por la que la gente cree que ha optado por no participar cuando no lo ha hecho.

¿Bloquear rastreadores de IA perjudicará mi posicionamiento en Google? No, siempre que solo bloquees bots de IA y mantengas Googlebot permitido. Bloquear GPTBot, ClaudeBot, CCBot o Google-Extended no afecta el posicionamiento tradicional de Google o Bing, que está controlado por Googlebot y Bingbot. Ten en cuenta que Google-Extended solo te excluye del entrenamiento de Gemini, no de la Búsqueda.

¿Cuál es la diferencia entre GPTBot y OAI-SearchBot? GPTBot recopila datos para entrenar los modelos de OpenAI, así que bloquéalo para no participar en el entrenamiento. OAI-SearchBot obtiene páginas para alimentar los resultados y citas de ChatGPT Search, así que permítelo si quieres que ChatGPT muestre y enlace tu contenido. Bloquear ambos te excluye del entrenamiento y te elimina de las respuestas citadas de ChatGPT.

¿Pueden los rastreadores de IA ignorar mi robots.txt? Sí. robots.txt es una solicitud, no una imposición. Rastreadores de buena reputación como GPTBot y ClaudeBot lo respetan, pero algunos, como Bytespider, tienen fama de ignorarlo. Para esos, añade una cabecera HTTP X-Robots-Tag o bloquéalos a nivel de servidor o cortafuegos en lugar de confiar solo en robots.txt.

¿Debo bloquear todos los bots de IA o solo los de entrenamiento? Para la mayoría de los editores, bloquea los bots de entrenamiento y permite los bots de búsqueda de IA. Así te excluyes del entrenamiento gratuito de modelos mientras te mantienes visible y citado en ChatGPT Search, Claude y Perplexity, una fuente de tráfico creciente. El bloqueo total solo tiene sentido si no quieres que tu contenido sea utilizado por la IA de ninguna forma, incluidas las citas.

Try these tools

Try Molixa Tools

50+ free AI tools for content creation, SEO, coding, and more. No signup, no watermark.

Explore all tools