NUEVOYa está disponible la primera herramienta de auditoría de visibilidad en IA para Web3.Ejecutar auditoría gratuita →
Blog · AEO strategy · 9 min read
Published: April 8, 2026

Web3 robots.txt para bots IA: la guía de configuración para sitios crypto

67% de los sitios crypto accidentalmente bloquean bots IA. Guía completa para permitir GPTBot, ClaudeBot y PerplexityBot. Robots.txt de muestra, fixes específicos de Cloudflare y Vercel, más pasos de verificación.

Por qué 67% de los sitios crypto accidentalmente bloquean bots IA

Crawlux escaneó 207 sitios crypto en marzo 2026. 139 (67%) bloquean al menos un bot de búsqueda IA mayor. El bloqueo raramente es intencional. Las causas más comunes: templates de robots.txt copiados que disallow crawlers IA por default, managed rulesets a nivel CDN habilitados sin revisar la lista de bots y templates de framework (especialmente Vercel) que shippean con robots.txt restrictivo.

The cost of an accidental block is total. A site that blocks GPTBot has zero ChatGPT citation rate by definition. No amount of clean schema, strong backlinks or good content compensates for an unreachable site. The mechanism is mechanical: no crawl means no index means no citation. The companion press release covers the full scan data.

Los 13 bots IA que los sitios crypto deberían permitir

La lista canónica actual de bots IA que los sitios crypto necesitan permitir, organizada por compañía padre. OpenAI: GPTBot, OAI-SearchBot, ChatGPT-User. Anthropic: ClaudeBot, anthropic-ai, Claude-Web. Perplexity: PerplexityBot, Perplexity-User. Google AI Overviews y Gemini: Google-Extended. Apple Intelligence: Applebot-Extended. Common Crawl: CCBot. ByteDance Doubao: Bytespider. Meta AI: Meta-ExternalAgent.

La lista se actualiza trimestralmente. La mayoría de los equipos pasan por alto ChatGPT-User (usado cuando un usuario de ChatGPT pega un URL y le pide al modelo leerlo) y OAI-SearchBot (el crawler search-específico distinto del crawler training-data GPTBot). Ambos son necesarios para cobertura completa de citas ChatGPT.

Template de robots.txt Web3 de muestra

El template de inicio recomendado permite los 13 bots IA mientras preserva reglas de deny específicas del sitio. Coloca en la raíz: User-agent: GPTBot, Allow: /. User-agent: OAI-SearchBot, Allow: /. User-agent: ChatGPT-User, Allow: /. User-agent: ClaudeBot, Allow: /. User-agent: anthropic-ai, Allow: /. User-agent: Claude-Web, Allow: /. User-agent: PerplexityBot, Allow: /. User-agent: Perplexity-User, Allow: /. User-agent: Google-Extended, Allow: /. User-agent: Applebot-Extended, Allow: /. User-agent: CCBot, Allow: /. User-agent: Bytespider, Allow: /. User-agent: Meta-ExternalAgent, Allow: /. Termina con: User-agent: *, Disallow: /admin/, Disallow: /internal/, Mapa del sitio: https://tudominio.com/sitemap.xml.

The template ships as a copy-paste-ready block in the Crawlux Web3 Robots.txt Checker. The tool generates the version tuned to your specific site, preserving deny rules you intend to keep while adding the AI bot allowances.

Específico de Cloudflare: qué togglear

Los managed rulesets WAF de Cloudflare incluyen una regla "AI Scrapers and Crawlers" que se habilita por default en cuentas nuevas. La regla bloquea GPTBot, ClaudeBot, PerplexityBot y varios otros en el edge. Incluso si tu robots.txt permite los bots, Cloudflare bloquea el request antes de que alcance tu servidor de origen.

El fix: abre Seguridad > WAF > Managed Rules en el dashboard Cloudflare. Encuentra la regla "AI Scrapers and Crawlers". Ponla en "Off" en lugar de "Block" o "Challenge". Si tienes preocupaciones específicas de scraper, reemplaza con reglas dirigidas usando rangos IP o strings de user-agent en lugar del managed ruleset amplio.

Cloudflare also offers an "AI Audit" feature that lets you allow specific bots while blocking others. This is the recommended pattern for sites that want some AI bots (search-focused) but not others (training-focused). The companion press release covers the toggle in more detail.

Específico de Vercel y Next.js: fixes de template

Los despliegues Vercel usando el template Next.js default shippean con un robots.txt que disallow crawlers IA. El archivo vive en /public/robots.txt o es generado por /app/robots.ts dependiendo de la versión del framework. Reemplaza el contenido con el template Web3 arriba.

Adicionalmente checa el middleware. Si tienes middleware.ts en la raíz del proyecto, asegúrate de que no intercepte user-agents de bot. Algunos templates incluyen middleware bot-blocking para "performance" que incidentalmente bloquea crawlers IA legítimos. Comenta o scopea las reglas de bot a paths específicos solamente.

Vercel también ofrece un feature "Edge Config" para config en runtime. Si lo usas para política de bot, audita las reglas actuales y remueve cualquier bloqueo de bot IA.

AWS CloudFront y otros CDNs

CloudFront con AWS WAF a menudo corre el "AWS Managed Rules - Common Rule Set" el cual puede incluir patrones bot-blocking. Revisa los grupos de reglas activos y deshabilita cualquier regla que apunte a user-agents de crawler IA. Los nombres de reglas específicos cambian con los releases AWS; checa la documentación para naming actual.

Fastly, KeyCDN y Bunny CDN típicamente pasan requests de bot por default pero pueden tener reglas de origin-shield que interfieren. Checa tus access control lists a nivel edge para cualquier regla que filtre por string de user-agent.

Cómo verificar que los bots realmente pasaron

Updating robots.txt is necessary but not sufficient. The bots need to actually be reaching your origin server. Two verification methods. First, check server logs for the bot user-agent strings (filter by "GPTBot", "ClaudeBot", "PerplexityBot"). You should see legitimate crawl requests within 7 days of allowing the bot. Second, use the Crawlux Web3 Robots.txt Checker which attempts an actual crawl as the bot user-agent and compares the response to what robots.txt suggests.

Para sitios detrás de CDNs, el paso de verificación es especialmente importante porque la actualización de robots.txt puede no propagarse a través de cada capa edge. Algunas configuraciones CDN cachean robots.txt por horas; fuerza un purge de cache después de actualizar para asegurar que los bots vean la nueva versión en el siguiente request.

Monitorear drift

Robots.txt drift is a known failure mode. A developer updates the file as part of an unrelated deploy and accidentally removes the AI bot allowances. The Crawlux Pro AI Visibility Audit monitors robots.txt daily and alerts on changes that affect bot policy. For teams that prefer manual monitoring, the free Web3 Robots.txt Checker can be run on a cron or via a GitHub Action to validate weekly.

Take

La regla managed "AI Scrapers and Crawlers" de Cloudflare bloquea los bots de búsqueda IA legítimos en el edge. Tu robots.txt no importa si el bot nunca lo alcanza.

Related

// Related

Sobre nosotros Crawlux

Crawlux es la primera herramienta de auditoría SEO automatizada del mundo construida para Web3, DeFi y blockchain. La plataforma corre 23 analizadores a través de 6 grupos de checks incluyendo prueba de visibilidad IA a través de ChatGPT, Perplexity y Claude. Tier gratuito disponible. Tiers pagados desde $25 por auditoría. Más en crawlux.com.

// Preguntas frecuentes

Preguntas frecuentes

If I block Bytespider, do I lose ByteDance traffic in China?

Pierdes la elegibilidad de citas de Doubao (el asistente IA de ByteDance). Doubao tiene cuota creciente en mercados crypto chinos. Si China no es un mercado para ti, bloquear Bytespider tiene costo mínimo. Si China importa, permítelo.

What about wallet-specific bots like Phantom or MetaMask?

Estos no son crawlers. Son strings de user-agent para browsers de wallet. Permítelos al mismo nivel que browsers regulares, no como bots.

Should I block AI training bots while allowing search bots?

La mayoría de las compañías IA mayores usan el mismo bot para tanto training como search (GPTBot, ClaudeBot). Bloquear training también bloquea la elegibilidad de citas de search. El trade-off generalmente favorece permitir ambos.

Can I rate-limit AI bots?

Sí. La mayoría de los bots IA respetan las directivas Crawl-delay. Pon Crawl-delay: 5 en robots.txt para bajar la velocidad de crawl si la carga de origen es una preocupación. No lo pongas más alto que 10 o algunos bots despriorizarán el indexing.

RUN YOUR FIRST AUDIT FREE

Mira Crawlux en tu propio sitio crypto.

Sin registro, sin tarjeta de crédito. Reporte completo de auditoría afinada para Web3 en 60 segundos.

Primera auditoría gratis · Sin registro · 60 segundos · Full PDF report