Robots.txt en la era de la IA: qué bots permitir y cuáles no (y por qué es importante)

Juan Cascón Baños

hace 2 meses

Robots.txt en la era de la IA: qué bots permitir y cuáles no (y por qué es importante)

Categorías: Destacada, Internet, Tecnología

La mayoría conocemos el archivo robots.txt como una herramienta básica de SEO: un simple archivo de texto que indica a los bots qué pueden y qué no pueden rastrear en tu sitio web. Pero en la era de la IA, se ha convertido en algo más. Tu archivo robots.txt ahora juega un papel fundamental en cómo aparece (o no) tu marca en la búsqueda generativa, los asistentes de IA y los grandes modelos de lenguaje (LLM).

Ya no se trata solo de si Google puede indexar tu sitio web. Un número creciente de robots de IA, como OpenAI, Anthropic, Perplexity y otros, rastrean tu sitio, buscando acceder a contenido de alta calidad para su recuperación o entrenamiento de modelos. Tu archivo robots.txt actúa como guardián: si no se permite que estos robots rastreen tu sitio, tu contenido no será citado, resumido ni incluido en los conjuntos de datos que alimentan las respuestas de las herramientas de IA. Esto significa que tu marca podría quedar fuera de las conversaciones que tu audiencia mantiene con la IA.

En esta guía, explicaremos qué hace realmente robots.txt, por qué es más importante que nunca y cómo las marcas pueden abordar la visibilidad de los bots de forma estratégica. Tanto si eres un experto en SEO técnico como un director de marketing que toma decisiones estratégicas sobre IA, esta guía te ayudará a comprender qué permitir, qué bloquear y por qué tu decisión es importante.

Un breve repaso: ¿Qué es robots.txt y por qué es importante?

El archivo robots.txt que esta en la directorio raíz de un sitio web con un conjunto sencillo de instrucciones que se encuentra en la raíz de tu sitio web. Es lo primero que la mayoría de los bots revisan al visitar tu sitio. No controla qué se puede indexar (eso se gestiona con las metaetiquetas), pero sí determina qué se puede rastrear.

¿Por qué es importante? Porque el rastreo web impulsa el descubrimiento. Si un bot no puede rastrear tu contenido, no puede aprender de él, mostrarlo en los resultados ni atribuir la información a tu marca. Esto significa que podrías ser invisible para las herramientas que tus compradores utilizan para tomar decisiones.

Por qué esto ahora importa más que nunca:

Los bots de los LLM están rastreando activamente la web abierta para mejorar sus respuestas.
Las plataformas de IA generativa se basan en material de origen confiable para responder preguntas.
Los sitios que se pueden rastrear tienen más probabilidades de ser citados, resumidos y seleccionados en funciones de SERP como Resúmenes de IA y herramientas como Perplexity.

Tu archivo robots.txt ahora actúa como filtro para tu participación en las búsquedas impulsadas por IA.

Apertura versus bloqueo: una decisión estratégica

Si bien permitir el acceso de todos los bots a tu sitio web tiene muchas ventajas, algunas marcas optan por bloquear los bots de IA. Las empresas de medios y los editores de contenido preocupados por los derechos de autor, la reutilización de contenido o los modelos de monetización suelen pertenecer a este grupo.

Bloquear los bots de IA puede proteger el contenido, pero también limita las oportunidades.

A menos que seas una publicación importante con una comunidad cerrada y monetizada, bloquear el acceso probablemente no sea el mejor enfoque para tu marca.

Al permitir que los LLM de confianza y los bots de búsqueda rastreen su sitio, aumenta sus posibilidades de:

Ser citado en las respuestas de ChatGPT o en los resúmenes generados por IA.
Ser seleccionado como fuente de Perplexity o Gemini
Que tus productos o servicios sean descubiertos antes en el camino.

Es una decisión estratégica, pero con implicaciones reales para tu visibilidad futura.

Consideraciones antes de abrir las puertas

Antes de abrir las puertas a todos los rastreadores web, hay algunas consideraciones muy importantes y, dependiendo del tamaño de su organización y de las partes interesadas, esto podría llevar tiempo. A continuación, se presentan algunas preguntas que toda marca debería hacerse:

¿Tenemos contenido propietario que queremos proteger? Mantenga los portales de clientes, las herramientas internas y los datos confidenciales de los productos fuera del alcance de los usuarios.
¿Nuestro mensaje es actual y coherente? Los másteres en Derecho solo pueden aprender de la información disponible. Si su sitio web es inconsistente o está desactualizado, se podría difundir información errónea.
¿Nuestras páginas más importantes son fáciles de encontrar y rastrear? Una estructura clara con contenido optimizado y enlaces internos maximiza lo que los robots de IA pueden ver y comprender.

La ventaja estratégica de abrir tu mensaje de texto a los LLM.

Cuando tu sitio sea rastreable por los bots adecuados, podrás:

Aumentar la visibilidad de la marca en los másteres jurídicos y los asistentes de IA.
Mejorar el reconocimiento de la entidad (para que su marca se entienda en el contexto de su sector).
Permite citas y resúmenes precisos en herramientas como Perplexity, ChatGPT y Gemini.
Sentar las bases para la visibilidad sin clics en las descripciones generales, respuestas y réplicas del asistente de IA.

Las herramientas de IA están transformando la forma en que los usuarios encuentran, confían e interactúan con las marcas. La transparencia impulsa tu inclusión en ese futuro.

Obtén más información sobre la optimización de entidades →

Ejemplo: robots.txt abierto vs. cerrado

Abra robots.txt (configuración predeterminada para facilitar el rastreo):

Esto permite que todos los bots rastreen todas las partes del sitio.

Bloqueo selectivo para bots LLM:

Esto impide que OpenAI y Anthropic rastreen tu contenido, dejando el resto abierto.

Nota importante: Bloquear Google, Bing u otros motores de búsqueda importantes mediante Disallow: / impedirá que indexen todo tu sitio web. Si no estás completamente seguro de lo que estás haciendo, no adivines. Podrías hacer que tu sitio desaparezca de internet si lo configuras incorrectamente.

¿Cómo encaja esto en nuestro marco CLARITY?

Dentro de nuestro marco CLARITY, robots.txt juega un papel importante desde el principio, pero su impacto perdura:

Rastreo : Si los bots no pueden acceder a tu contenido, nada más importa. Nos aseguramos de que los sistemas de gestión de sitios web (LLM) y los motores de búsqueda puedan rastrear las partes correctas de tu sitio.
Aprende : ¿Qué información detectan estos modelos sobre tu marca? La indexación es el primer paso, pero la precisión proviene de un contenido excelente y una estructura coherente.
Integrate : Ayudamos a nuestros clientes a alinear sus estrategias de SEO y visibilidad mediante IA, para que su marca aparezca claramente tanto en la búsqueda tradicional como en la generativa.

Auditamos el acceso de rastreo, realizamos diagnósticos de acceso de bots y ayudamos a las marcas a pensar de forma proactiva sobre qué quieren exponer y qué quieren proteger.

Descubre el marco CLARITY →

¿Qué bots permitir (y cuáles bloquear)?

Nombre del bot	Agente de usuario	Lo que se arrastra	Recomendación excelente
Googlebot	Googlebot	Índice de búsqueda de Google	✅ Permitir
Bingbot	Bingbot	Bing + Microsoft Copilot	✅ Permitir
GPTBot	GPTBot	OpenAI / ChatGPT	✅ Permitir
ClaudeBot	ClaudeBot	Antrópico / Claude	✅ Permitir
GeminiBot	Google-Extended	Formación Google Gemini LLM	✅ Permitir
Bot de perplejidad	Bot de perplejidad	Índice y citas de Perplexity.ai	✅ Permitir
CCBot	CCBot	Common Crawl (utilizado por muchos LLM)	✅ Permitir
Amazonbot	Amazonbot	Amazon Alexa + otros rastreadores de productos	✅ Permitir (caso por caso)
Applebot	Applebot	Siri + servicios de Apple	✅ Permitir
Meta Agente	Meta-Agente Externo	Vistas previas de Facebook, Instagram e Threads	✅ Permitir
X / Bot de Twitter	bot de Twitter	Vistas previas de enlaces para X (anteriormente Twitter)	✅ Permitir
YouBot	YouBot	Asistente You.com + búsqueda generativa	✅ Permitir
ByteSpider	ByteSpider	Recopilación de datos de TikTok/ByteDance	⚠️ Precaución / Evaluar
AhrefsBot	AhrefsBot	Rastreador de herramientas SEO	⚠️ Opcional
SemrushBot	SemrushBot	Rastreador de herramientas SEO	⚠️ Opcional
Bot AllenAI	rastreador de IA	Investigación en IA a través del Instituto Allen	✅ Permitir
Bot de DuckDuckGo	DuckDuckBot	Motor de búsqueda basado en la privacidad	✅ Permitir

¿Y qué hay de llms.txt? (Sí, existe, más o menos).

Es posible que hayas oído hablar de llms.txt, un archivo propuesto para que los propietarios de sitios web controlen cómo los modelos de lenguaje de gran tamaño acceden a su contenido y lo utilizan. Su objetivo es proporcionar una señal más explícita para los permisos de entrenamiento e inferencia en los modelos de IA. Suena prometedor, pero por ahora no es un estándar de la industria. Modelos importantes como GPTBot de OpenAI y Claude de Anthropic aún hacen referencia a robots.txt, no a llms.txt.

Eso podría cambiar en el futuro. Pero por ahora, lo mejor es mantener tu archivo robots.txt bien configurado. Eso es lo que las grandes empresas tienen en cuenta, y es donde se toman las decisiones sobre visibilidad hoy en día.

Implementación y seguimiento

Aquí te mostramos cómo implementar una estrategia inteligente en robots.txt:

Revisa tu archivo actual : usa Google Search Console o herramientas como Screaming Frog para verificar qué está bloqueado.
Prueba antes del lanzamiento : utiliza la herramienta robots.txt Tester de Google para asegurarte de que la sintaxis sea correcta.
Utilice la sintaxis correcta : un solo error tipográfico puede dañar su archivo. Siga reglas claras para User-agent y Disallow/Allow.
Segmentación por bot : No aplique reglas generales. Puede permitir algunos LLM y bloquear otros.
Revisión trimestral : Constantemente surgen nuevos bots. Reevalúe cada pocos meses para asegurarse de que su estrategia de visibilidad esté alineada con la suya.
Supervisa tus registros de rastreo : utiliza los datos de registro del servidor para controlar qué bots acceden a tu sitio y a qué contenido acceden.
Comprueba tu impacto : herramientas como la pestaña «Fuentes» de Perplexity o las citas de navegación web de ChatGPT pueden ayudarte a confirmar si tu marca aparece en los resultados de búsqueda.

¿Qué tan visible es tu marca en la IA? Permítenos realizar una auditoría de IA. Hablemos →

Una advertencia: no intente adivinar con robots.txt.

Es engañosamente simple, pero extremadamente poderoso. Una línea incorrecta puede bloquear tu sitio web por completo en Google. Si no te sientes seguro editando robots.txt:

Involucre a su socio de SEO o a su equipo técnico.
Utilice herramientas verificadas para realizar pruebas.
Siempre guarda copias de seguridad de versiones anteriores.

Tu archivo robots.txt es una capa de visibilidad estratégica.

El archivo robots.txt siempre ha sido importante. Pero ahora forma parte de una estrategia más amplia para lograr visibilidad en herramientas de IA, motores de búsqueda y asistentes virtuales.

Si se hace correctamente, ayuda a garantizar que su marca no solo sea indexable, sino que también sea citada, utilizada como base de aprendizaje y genere confianza en los sistemas que están dando forma a la próxima generación de búsquedas.

Asegurémonos de que estés abierto a los bots adecuados y cerrado al resto.

Si quieres que tu contenido no de indexe y ayude a la IA en su aprendizaje por el poco tráfico que te manda. Pon lo siguiente para optimizar tu sitio. Es el que recomendamos para cortar la IA en tu sitio, más otros bots que no generan tráfico de vuelta relevante. Así optiizaras tu ancho de banda y coste de yu infraestructura

User-agent: *
Allow: / 

# Permitidos
User-agent: Googlebot-News
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Googlebot-Video
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: facebookexternalhit
Allow: /

User-agent: meta-externalads
Allow: /

User-agent: meta-externalagent
Allow: /

User-agent: meta-webindexer
Allow: /

User-agent: Facebot
Allow: /

User-agent: AmazonAdBot
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: Applebot
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: bingbot
Allow: /

User-agent: ByteSpider
Allow: /

User-agent: Doubaobot
Allow: /


# Bots no deseables
User-agent: 008
Disallow: /

User-agent: AddThis.com
Disallow: /

User-agent: admantx
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: BDCbot
Disallow: /

User-agent: Bender
Disallow: /

User-agent: BIXOCRAWLER
Disallow: /

User-agent: bl.uk_lddc_bot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: BUbiNG
Disallow: /

User-agent: Cliqzbot
Disallow: /

User-agent: CNCDialer
Disallow: /

User-agent: crawler4j
Disallow: /

User-agent: CrystalSemanticsBot
Disallow: /

User-agent: CyberAlert
Disallow: /

User-agent: DigExt
Disallow: /

User-agent: discobot
Disallow: /

User-agent: discoverybot
Disallow: /

User-agent: dloader
Disallow: /

User-agent: dloader(NaverRobot)
Disallow: /

User-agent: DOC
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: Download Ninja
Disallow: /

User-agent: DTS Agent
Disallow: /

User-agent: Exabot
Disallow: /

User-agent: Ezooms
Disallow: /

User-agent: FairShare
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Flamingo_SearchEngine
Disallow: /

User-agent: Genieo
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: grub-client
Disallow: /

User-agent: Heritrix
Disallow: /

User-agent: heritrix/3.3.0
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: integromedb
Disallow: /

User-agent: IstellaBot
Disallow: /

User-agent: JikeSpider
Disallow: /

User-agent: Jyxobot
Disallow: /

User-agent: k2spider
Disallow: /

User-agent: Kimengi
Disallow: /

User-agent: Kimengi/nineconnections.com
Disallow: /

User-agent: larbin
Disallow: /

User-agent: LexxeBot/1.0
Disallow: /

User-agent: libwww
Disallow: /

User-agent: linko
Disallow: /

User-agent: Livelapbot
Disallow: /

User-agent: magpie-crawler
Disallow: /

User-agent: Maxthon
Disallow: /

User-agent: MetaURI
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: Moreover
Disallow: /

User-agent: Moreoverbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: nabot
Disallow: /

User-agent: NaverBot
Disallow: /

User-agent: NerdByNature.Bot
Disallow: /

User-agent: netEstate NE Crawler
Disallow: /

User-agent: NetSeer crawler
Disallow: /

User-agent: Newscan
Disallow: /

User-agent: NextGenSearchBot
Disallow: /

User-agent: NPBot
Disallow: /

User-agent: nutch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: omgilibot
Disallow: /

User-agent: Orthogaffe
Disallow: /

User-agent: PiplBot
Disallow: /

User-agent: Pixray-Seeker
Disallow: /

User-agent: proximic
Disallow: /

User-agent: psbot
Disallow: /

User-agent: QuerySeekerSpider
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: seokicks
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

User-agent: SiteBot
Disallow: /

User-agent: SiteBot/0.1
Disallow: /

User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: Slurp
Disallow: /

User-agent: sogou
Disallow: /

User-agent: Sosospider
Disallow: /

User-agent: spbot
Disallow: /

User-agent: Spinn3r
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: trendictionbot
Disallow: /

User-agent: trovitBot
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: UbiCrawler
Disallow: /

User-agent: uMBot-LN
Disallow: /

User-agent: UnisterBot
Disallow: /

User-agent: UniversalFeedParser
Disallow: /

User-agent: WBSearchBot
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: WebReaper
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: WeSEE:Search
Disallow: /

User-agent: wget
Disallow: /

User-agent: Wotbot
Disallow: /

User-agent: wotbox
Disallow: /

User-agent: Xenu
Disallow: /

User-agent: Yasni
Disallow: /

User-agent: Zao
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: ZyBORG
Disallow: /


# Bots IA y SEO
User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: Claude-web
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ai-crawler
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MistralAI-User
Disallow: /

User-agent: ERNIEBot
Disallow: /

User-agent: YiyanBot
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: Kimibot
Disallow: /

User-agent: MoonshotBot
Disallow: /

User-agent: KimiCrawler
Disallow: /

User-agent: QwenBot
Disallow: /

User-agent: TongyiBot
Disallow: /

User-agent: AliyunBot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# fin robots

. Leer artículo completo en Frikipandi Robots.txt en la era de la IA: qué bots permitir y cuáles no (y por qué es importante).