NEWWorld's first AI visibility audit tool for Web3 is live.Run free audit →
Standards · 9 min read · Published 2026-05-14

llms.txt vs robots.txt: lo que los sitios crypto necesitan en 2026

Dos archivos de texto en el root de tu dominio hacen trabajos diferentes. robots.txt ha existido desde 1994 y controla el acceso de crawlers. llms.txt es nuevo en 2024 y le dice a los motores IA de qué se trata tu sitio. Necesitas ambos. La mayoría de los sitios crypto no tienen ninguno configurado correctamente.

Chapter 01
// Definitions

Qué hace realmente cada archivo

robots.txt: a directive file that tells crawlers (search engines, AI bots, archivers) which paths they can fetch. It's a politeness protocol — crawlers respect it voluntarily. Hard-coded user-agent allow/disallow rules. Both Google and OpenAI publicly commit to respecting it.

llms.txt: a structured Markdown file that explains your site to AI engines. Like a sitemap, but human-readable and AI-targeted. Lists key pages, describes the product, links to canonical resources. Standard proposed by Anthropic and Jeremy Howard in 2024.

Sirven a capas diferentes. robots.txt controla acceso. llms.txt proporciona contexto. Necesitas el acceso controlado correctamente Y el contexto proporcionado limpiamente. Saltarte cualquiera cuesta visibilidad AEO.

Chapter 02
// robots.txt

Allowlist de bots IA en robots.txt

Por default, la mayoría de los CMSs envían un robots.txt que bloquea bots IA inadvertidamente o no los aborda en absoluto. Añade directivas Allow explícitas para los bots por los cuales quieres ser indexado.

# AI Crawlers (explicit allow)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

La lista arriba es el set viable mínimo para sitios crypto del mercado inglés en 2026. Añade Bytespider (el crawler de TikTok), Amazonbot y Applebot-Extended si sirves audiencias usando las features IA de esas plataformas.

No bloquees bots IA con el supuesto que 'training data' es una preocupación. Los crawlers que jalan contenido para citas en tiempo real (PerplexityBot, ChatGPT-User, OAI-SearchBot) NO son los mismos que los crawlers de entrenamiento (GPTBot, ClaudeBot). Bloquear los crawlers de citas te hace invisible para los motores IA. Bloquear los crawlers de entrenamiento es tu llamada pero no afecta las citas.

Chapter 03
// llms.txt

Estructura y contenido de llms.txt

llms.txt es Markdown plano en el root: https://yoursite.com/llms.txt. La estructura sigue la propuesta: H1 con nombre del sitio, blockquote con descripción de un párrafo, luego secciones de enlaces.

# Your Protocol

> Your Protocol is a decentralized lending platform with $200M+ TVL across 5 chains. We pioneered isolation mode for risky assets.

## Core product

- [Supply markets](https://yourprotocol.com/markets/): list of all supplied assets with current APYs
- [Borrow markets](https://yourprotocol.com/borrow/): borrowing rates and collateral requirements
- [Documentation](https://docs.yourprotocol.com/): technical docs and integration guides

## Key topics

- [What is isolation mode](https://yourprotocol.com/blog/isolation-mode/)
- [How our oracle works](https://yourprotocol.com/blog/oracle-design/)
- [Seguridad audits](https://yourprotocol.com/security/)

Archivo compañero: llms-full.txt en el mismo root. Esta es la versión long-form con el texto completo de tus páginas clave inlineado. Los motores IA que siguen la spec pueden jalar o llms.txt para el index o llms-full.txt para contenido directo. Hosteamos llms-full.txt a 14KB para Crawlux, suficientemente pequeño para que un motor lo recupere completamente.

Chapter 04
// Crypto rules

Consideraciones crypto-específicas

Dos patrones específicos a sitios crypto.

Pattern 1: declare your token contract. If you have a token, the llms.txt should link to a canonical token page with the contract address. AI engines pull this when answering 'what's the contract address for <TOKEN>.' Without it, the engine guesses based on Etherscan results, and guesses wrong on tokens with multiple deployments.

Pattern 2: declare your supported chains. Crypto-specific queries ('does <protocol> support Solana') are frequent. List the supported chains explicitly in llms.txt as a section. Take this from your llms-full.txt content.

The robots.txt for a crypto site should also block /audit-report/, /checkout/, and any URL with a wallet address as a parameter. Wallet-addressed URLs leak user data into search indices.

Chapter 05
// Testing

Validación y monitoreo

robots.txt validators. Google Search Console > Settings > robots.txt Tester. Paste a URL and confirm it's not accidentally blocked.

llms.txt validators. The community-maintained validator at llmstxt.org. Checks the structure follows the spec.

Live test. Ask ChatGPT 'what does <your site> do' two weeks after deploying llms.txt. If the answer quotes the description from your llms.txt, the file is being read. If the answer paraphrases your homepage h1, the engine hasn't picked it up yet.

Server log monitoring. Filter your access logs for User-Agent strings containing GPTBot, ClaudeBot, PerplexityBot. You should see hits within 48 hours of deploying llms.txt. No hits after a week suggests the file isn't reachable or your CDN is blocking the bots.

Preguntas frecuentes
// Preguntas frecuentes

Preguntas comunes

Is llms.txt required?

No. Es un estándar emergente, no un mandato. Los sitios sin él todavía pueden ser citados. Los sitios con él consistentemente son citados a tasas más altas en nuestras pruebas.

Do all AI engines respect llms.txt?

Anthropic lo soporta explícitamente. OpenAI no se ha comprometido formalmente pero se le ha observado leyéndolo. Google AI Overviews no ha confirmado soporte. Trátalo como best-effort, no garantizado.

Can I have llms.txt without robots.txt?

No lo hagas. robots.txt es requerido para cualquier sitio bien formado. llms.txt es suplementario.

How often should I update llms.txt?

Cuando lanzas una feature o página mayor nueva. De otro modo trimestralmente. Mantenlo bajo 16KB para que los motores lo recuperen en una solicitud.

Will llms.txt hurt my Google SEO?

No. Google ignora llms.txt. Es puramente una señal a los motores IA.

Audita tu sitio crypto en 60 segundos

Scan profundo de 8 módulos. Visibilidad IA, schema, SEO técnico, backlinks. Un dominio gratis para siempre.