Skip to content
Back to Blog
seorobotstxt-genai-crawlerstechnical-seo

Cómo bloquear rastreadores de IA en robots.txt (2026)

Bloquear 'Claude-Web' no sirve en 2026, está obsoleto. Aquí te mostramos cómo bloquear los rastreadores de entrenamiento de IA que importan, manteniendo tus citas en ChatGPT y Perplexity.

SZ
Founder, Molixa
11 min read
Compartir
Cómo bloquear rastreadores de IA en robots.txt (2026)
Table of contents8 sections

Para bloquear los rastreadores de IA en robots.txt, añade reglas Disallow: / para los bots de entrenamiento actuales usando sus nombres reales de agente de usuario, principalmente GPTBot, ClaudeBot, CCBot y Google-Extended. Omite cadenas obsoletas como Claude-Web, que ya no tienen efecto, y deja permitidos los bots de búsqueda de IA si aún deseas que ChatGPT y Perplexity te citen.

El error que cometen casi todas las guías es tratar a los "rastreadores de IA" como una sola cosa para bloquearlos de forma general. No lo son. Algunos bots extraen tu contenido para entrenar modelos. Otros obtienen tus páginas en vivo para responder a la pregunta de un usuario y citarte. Bloquea al grupo equivocado y desaparecerás de los resultados de búsqueda de IA, mientras que los raspadores de entrenamiento que querías detener siguen ignorando tus reglas desactualizadas.

Training Bots vs Search Bots: Block One, Keep the Other#

This split is the single most important concept on the page, and it is the one most posts miss. Before you write a single rule, decide which group you actually want to stop.

Crawler purposeWhat it doesShould you block it?
Training crawlersScrape content to train or improve AI modelsBlock if you do not want your content used for training
AI search crawlersFetch pages live to answer queries and cite sourcesUsually allow, blocking removes you from AI answers
Traditional search crawlersIndex pages for Google, Bing, etc.Never block, this destroys your SEO

Blocking GPTBot stops OpenAI from training on your content, but it does not stop OAI-SearchBot, the agent that powers citations in ChatGPT Search. If you block both, you protect your content from training and disappear from ChatGPT's cited sources. That may be what you want, or it may be a costly accident. Decide deliberately.

The clean default for most publishers: block the training scrapers, keep the search agents. You opt out of free model training while staying visible (and linked) inside AI answers.

Los User-Agents Obsoletos que Siguen Circulando#

Muchos consejos copiados y pegados sobre robots.txt bloquean cadenas de user-agent que ya no hacen nada. Si tu archivo las incluye esperando detener a Anthropic u otros, no funciona.

  • Claude-Web está obsoleto. Era un user-agent antiguo de Anthropic y ya no es la cadena que obtiene contenido para entrenamiento o recuperación en vivo. Bloquearlo no tiene efecto en los rastreadores actuales de Anthropic.
  • anthropic-ai también está desactualizado como objetivo de bloqueo. El rastreador de entrenamiento activo de Anthropic se identifica como ClaudeBot.

Si tu objetivo es detener el entrenamiento de modelos de Anthropic, la directiva que importa en 2026 es ClaudeBot, no Claude-Web ni anthropic-ai. Bloquear las cadenas muertas mientras se permite a ClaudeBot es el patrón de fallo exacto que esta guía existe para corregir.

Los User-Agents Actuales de Rastreadores de IA (2026)#

Estos son los user-agents que vale la pena conocer, agrupados por su función. La coincidencia de user-agents en robots.txt no distingue mayúsculas de minúsculas, y cada línea User-agent apunta exactamente a un token.

User-agentOperadorPropósitoElección típica
GPTBotOpenAIRecopilación de datos de entrenamientoBloquear para no participar en el entrenamiento
OAI-SearchBotOpenAIResultados y citas de ChatGPT SearchPermitir para aparecer en respuestas de ChatGPT
ChatGPT-UserOpenAIObtención en vivo cuando un usuario pide a ChatGPT visitar una páginaPermitir para obtenciones bajo demanda
ClaudeBotAnthropicEntrenamiento y rastreoBloquear para no participar en el entrenamiento
Claude-SearchBotAnthropicIndexación de búsqueda para ClaudePermitir para mantenerse visible en la búsqueda de Claude
Claude-UserAnthropicObtención en vivo para una solicitud de usuarioPermitir para obtenciones bajo demanda
Google-ExtendedGoogleControl de entrenamiento y fundamentación de GeminiBloquear para no participar en el entrenamiento de Gemini
GooglebotGoogleÍndice principal de Búsqueda y AI OverviewsNunca bloquear
CCBotCommon CrawlConjunto de datos abierto con el que se entrenan muchos modelosBloquear para no participar en el raspado de datos
PerplexityBotPerplexityIndexación para respuestas de PerplexityPermitir para ser citado por Perplexity
BytespiderByteDanceRastreador de entrenamiento agresivoBloquear, a menudo ignora las reglas
Meta-ExternalAgentMetaRastreador de entrenamiento de IABloquear para no participar en el entrenamiento de Meta

Dos matices importantes. Primero, Google-Extended solo controla el entrenamiento y la fundamentación de Gemini; no afecta tu posicionamiento normal en Google, que es gobernado por Googlebot. Puedes optar por no participar en el entrenamiento de Gemini sin dañar tu SEO. Segundo, algunos rastreadores (Bytespider es el infractor habitual) tienen fama de ignorar robots.txt, por lo que para esos puede que necesites bloqueo a nivel de servidor, no solo una directiva educada.

Las reglas de robots.txt que realmente necesitas#

Aquí tienes un robots.txt actual y listo para copiar que bloquea los principales rastreadores de entrenamiento, permite a los agentes de búsqueda de IA para que sigas siendo citable y nunca toca los bots de búsqueda tradicionales. Colócalo en la raíz de tu dominio, en https://tudominio.com/robots.txt.

# Bloquear rastreadores de entrenamiento de IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Permitir rastreadores de búsqueda de IA para seguir siendo citado en respuestas de IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Nunca bloquear motores de búsqueda tradicionales
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Predeterminado para todo lo demás
User-agent: *
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Si quieres bloquear todo el entrenamiento de IA y toda la búsqueda de IA (exclusión total, aceptando perder citas de IA), cambia los bloques de bots de búsqueda a Disallow: / también. Si solo quieres excluirte del entrenamiento mientras mantienes la máxima visibilidad, el archivo anterior es tu plantilla. Crea una versión personalizada con tu propio dominio y reglas usando el generador de robots.txt gratuito, que ensambla la sintaxis correcta actual para que no pegues una cadena obsoleta por accidente.

Cada bloque User-agent necesita su propia línea de directiva. Listar Disallow: / una vez bajo un solo agente no se aplica a los demás; cada bot que quieras bloquear necesita un bloque explícito.

Cómo bloquear rastreadores de IA paso a paso#

Paso 1: Decide tu política#

Elige una de tres posturas. Permitir todo (aceptas el entrenamiento y quieres cada cita). Bloquear entrenamiento, permitir búsqueda (el valor predeterminado común de los editores, optar por no participar en el entrenamiento pero mantener las citas). O bloquear todo (exclusión total, sin uso de IA de tu contenido y sin citas de IA). Tu robots.txt se deriva de esa única decisión, así que tómala primero.

Paso 2: Escribe los bloques de agente de usuario#

Agrega una línea User-agent: para cada rastreador, seguida de Disallow: / para bloquear o Allow: / para permitir. Usa los nombres actuales de la tabla anterior, GPTBot y ClaudeBot, no el obsoleto Claude-Web. Agrupa tus bloques y tus permisos para que el archivo sea legible. El generador de robots.txt gratuito te permite alternar cada bot y genera la sintaxis exacta.

Paso 3: Agrega una metaetiqueta noai o X-Robots-Tag (opcional, por si acaso)#

robots.txt solicita a los rastreadores que no obtengan una página. No controla lo que sucede con el contenido ya recopilado, y los rastreadores bien comportados lo respetan mientras que los malos pueden no hacerlo. Para una señal adicional, agrega un encabezado HTTP X-Robots-Tag: noai, noimageai o una etiqueta <meta name="robots" content="noai"> a nivel de página. El soporte no es universal, pero expresa una intención que algunos operadores respetan.

Paso 4: Implementa en la raíz del dominio y prueba#

Sube el archivo para que se resuelva exactamente en https://tudominio.com/robots.txt, robots.txt solo se aplica a su propio host y protocolo, y los subdominios necesitan el suyo. Obtén la URL en un navegador para confirmar que se carga como texto plano, luego verifícalo en el informe de robots.txt de Google Search Console para asegurarte de que no hayas bloqueado accidentalmente a Googlebot. Combínalo con un sitemap XML actualizado, que puedes crear con el generador de sitemaps gratuito, y referencia ese sitemap al final del archivo como se muestra arriba.

¿Bloquear los rastreadores de IA dañará tu SEO?#

Bloquear los rastreadores de entrenamiento de IA (GPTBot, ClaudeBot, CCBot, Google-Extended) no afecta tus rankings tradicionales en Google o Bing, ya que estos son controlados por Googlebot y Bingbot, a los que mantienes permitidos. Puedes optar por no participar en el entrenamiento de modelos y posicionarte exactamente como antes.

Bloquear los rastreadores de búsqueda de IA es diferente. Si deshabilitas OAI-SearchBot, Claude-SearchBot o PerplexityBot, te eliminas de las respuestas citadas de esos motores, que son una fuente creciente de tráfico de referencia. Y bloquear Googlebot, lo que una regla comodín descuidada puede hacer, es realmente perjudicial y te desindexa de Google. Mantén tus agentes de búsqueda y búsqueda de IA permitidos a menos que tengas una razón específica para no hacerlo.

El otro elemento de control en la página que vale la pena configurar correctamente son tus metaetiquetas, para que un descuidado noindex o canonical no socave las mismas páginas. Nuestro generador de metaetiquetas gratuito te ayuda a auditarlas. Y si estás pensando en cómo los motores de IA leen tu contenido más allá del rastreo, nuestra guía sobre si el esquema FAQ está muerto en 2026 cubre los datos estructurados que esos mismos motores analizan para citarte.

El resultado final#

Bloquear los rastreadores de IA en robots.txt funciona en 2026, pero solo si usas los nombres correctos y la estrategia adecuada. Bloquea los scrapers de entrenamiento (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider, Meta-ExternalAgent) con sus user-agents actuales, ignora cadenas obsoletas como Claude-Web que no hacen nada, y mantén los agentes de búsqueda de IA y los bots de búsqueda tradicionales permitidos a menos que quieras desaparecer de las respuestas de IA.

Decide tu política primero, escribe bloqueos explícitos para cada bot, despliega en la raíz del dominio y confirma en Search Console que Googlebot no se ve afectado. El generador gratuito de robots.txt crea un archivo actual y sintácticamente correcto para que detengas los rastreadores que deseas y mantengas la visibilidad que quieres.

Preguntas Frecuentes#

¿Cómo bloqueo los rastreadores de IA en robots.txt? Agrega un bloqueo User-agent: con Disallow: / para cada rastreador de entrenamiento que quieras detener, usando nombres actuales como GPTBot, ClaudeBot, CCBot y Google-Extended. Mantén permitidos los bots de búsqueda tradicionales como Googlebot, y decide por separado si permites agentes de búsqueda de IA como OAI-SearchBot y PerplexityBot para que sigas siendo citado.

¿Bloquear Claude-Web evita que Anthropic entrene con mi contenido? No. Claude-Web está obsoleto y bloquearlo no tiene efecto. El rastreador de entrenamiento activo de Anthropic se identifica como ClaudeBot, por lo que ese es el user-agent que debes deshabilitar en 2026. Bloquear las cadenas antiguas mientras dejas ClaudeBot permitido es la razón más común por la que la gente cree que ha optado por no participar cuando no lo ha hecho.

¿Bloquear rastreadores de IA perjudicará mi posicionamiento en Google? No, siempre que solo bloquees bots de IA y mantengas Googlebot permitido. Bloquear GPTBot, ClaudeBot, CCBot o Google-Extended no afecta el posicionamiento tradicional de Google o Bing, que está controlado por Googlebot y Bingbot. Ten en cuenta que Google-Extended solo te excluye del entrenamiento de Gemini, no de la Búsqueda.

¿Cuál es la diferencia entre GPTBot y OAI-SearchBot? GPTBot recopila datos para entrenar los modelos de OpenAI, así que bloquéalo para no participar en el entrenamiento. OAI-SearchBot obtiene páginas para alimentar los resultados y citas de ChatGPT Search, así que permítelo si quieres que ChatGPT muestre y enlace tu contenido. Bloquear ambos te excluye del entrenamiento y te elimina de las respuestas citadas de ChatGPT.

¿Pueden los rastreadores de IA ignorar mi robots.txt? Sí. robots.txt es una solicitud, no una imposición. Rastreadores de buena reputación como GPTBot y ClaudeBot lo respetan, pero algunos, como Bytespider, tienen fama de ignorarlo. Para esos, añade una cabecera HTTP X-Robots-Tag o bloquéalos a nivel de servidor o cortafuegos en lugar de confiar solo en robots.txt.

¿Debo bloquear todos los bots de IA o solo los de entrenamiento? Para la mayoría de los editores, bloquea los bots de entrenamiento y permite los bots de búsqueda de IA. Así te excluyes del entrenamiento gratuito de modelos mientras te mantienes visible y citado en ChatGPT Search, Claude y Perplexity, una fuente de tráfico creciente. El bloqueo total solo tiene sentido si no quieres que tu contenido sea utilizado por la IA de ninguna forma, incluidas las citas.

seorobotstxt-genai-crawlerstechnical-seo

More from Molixa

Try Molixa Tools

50+ free AI tools for content creation, SEO, coding, and more. No signup, no watermark.

Explore all tools