Generador de Robots.txt
Crea un robots.txt con probador de URL en vivo y un linter de cumplimiento RFC 9309 (protocolo de exclusión de robots). Incluye presets WordPress y e-commerce.
Generador de Robots.txt
Crea reglas claras para controlar como los robots rastrean tu sitio. Configura allow/disallow, sitemap, host preferido y prueba URLs con distintos bots desde una unica interfaz.
Que es robots.txt y para que sirve?
El archivo robots.txt indica a los bots que partes de tu sitio pueden rastrear. Se coloca en la raiz (https://tusitio.com/robots.txt) y ayuda a optimizar el presupuesto de rastreo, evitar duplicados y proteger recursos que no necesitan indexarse.
Como usar la herramienta paso a paso?
1) Introduce la URL del sitio y, si tienes, la del sitemap. 2) Elige una politica base o agrega reglas personalizadas para cada bot. 3) Usa las rutas sugeridas para bloquear zonas sensibles (admin, login, tmp). 4) Opcional: define crawl-delay, host preferido y clean-param. 5) Genera el archivo, descarga y subelo a la raiz. 6) Prueba URLs especificas con Googlebot u otros agentes para confirmar el comportamiento.
Errores comunes a evitar
- Bloquear CSS/JS impide que Google renderice bien tus paginas.\n- Colocar robots.txt en subcarpetas no funciona; siempre debe estar en la raiz.\n- Usar robots.txt como seguridad es un error: la lista es publica.\n- Mantener reglas viejas de staging o desarrollo puede frenar el SEO en produccion.\n- No olvides actualizar la URL del sitemap cuando cambie.

robots.txt Disallow vs noindex y X-Robots-Tag: ¿cuál elimina de verdad una página del índice?
Resuelven problemas distintos y confundirlos es el error de SEO más común.
**Disallow en robots.txt** solo controla el RASTREO: le dice al bot que no descargue una URL. NO la elimina del índice. De hecho, una URL bloqueada puede seguir apareciendo en Google (sin descripción) si otros sitios la enlazan, porque Google nunca la rastreó para ver un noindex.
**meta noindex** (`<meta name="robots" content="noindex">`) y la cabecera HTTP **X-Robots-Tag** sí controlan la INDEXACIÓN: indican a Google que retire la página del índice.
El detalle clave: para que Google VEA el noindex, la página NO debe estar bloqueada en robots.txt. Si la bloqueas, el rastreador nunca la descarga ni lee el noindex, y puede quedar indexada.
**Reglas prácticas:**
• ¿Quieres que una página desaparezca de los resultados? Usa noindex y NO la bloquees en robots.txt.
• ¿Quieres ahorrar presupuesto de rastreo en URLs sin valor (filtros, calendarios)? Usa Disallow.
• X-Robots-Tag es ideal para archivos no HTML (PDF, imágenes): envía `X-Robots-Tag: noindex` en la cabecera.
• robots.txt es PÚBLICO y orientativo: nunca lo uses para ocultar datos sensibles; usa autenticación.
¿Cuál es el límite de tamaño de robots.txt y cómo funciona la precedencia de reglas?
**Límite de tamaño:** Google aplica un máximo de 500 KiB (unos 512.000 bytes). El contenido que supere ese límite se ignora. Mantén el archivo ligero; el verificador de cumplimiento muestra el tamaño en bytes para confirmar que estás por debajo.
**Precedencia de reglas (RFC 9309 - gana la coincidencia más larga):** cuando varias reglas Allow y Disallow coinciden con la misma URL, el bot NO usa la primera ni la última del archivo. Elige la regla cuyo patrón coincide con MÁS caracteres. El orden en el archivo es irrelevante.
Ejemplo:
User-agent: *
Disallow: /folder/
Allow: /folder/public/
Para /folder/public/page.html, "/folder/public/" (14 caracteres) es más largo que "/folder/" (8), así que gana Allow y la página es rastreable.
**Desempate:** si un Allow y un Disallow tienen una coincidencia igual de específica, gana el Allow. El probador de URL de esta herramienta implementa exactamente esta lógica, con comodines '*' y '$', por lo que su veredicto coincide con Googlebot.
¿Cómo funcionan el comodín '*' y el anclaje '$' en las rutas de robots.txt?
Google y los principales rastreadores admiten dos caracteres de patrón en las rutas (RFC 9309):
**'*' (asterisco)** coincide con cualquier secuencia de caracteres, incluida ninguna.
• `Disallow: /*?sort=` bloquea cualquier URL que contenga "?sort=", p. ej. /products?sort=asc.
• `Disallow: /private*/` bloquea /private/, /private-data/, etc.
**'$' (signo de dólar)** ancla la coincidencia al FINAL de la ruta.
• `Disallow: /*.pdf$` bloquea toda URL que termine en .pdf, pero no /file.pdf?download=1.
• `Allow: /$` permite SOLO la página de inicio.
Como los presets de esta herramienta generan reglas con comodines como /*?sort= y /*?filter=, el probador integrado convierte esos patrones en coincidencias reales: al probar https://example.com/products?sort=asc informa correctamente Bloqueado.
Funciones clave
- Interfaz intuitiva para crear reglas Allow/Disallow
- Plantillas rapidas para WordPress, e-commerce y blogs
- Sugerencias de rutas sensibles a bloquear
- Integracion de sitemap y host preferido
- Configuracion opcional de crawl-delay y clean-param
- Vista previa en tiempo real del archivo generado
- Tester de URL con coincidencia más larga RFC 9309 y comodines '*'/'$'
- Linter de cumplimiento: tamaño, bloqueo total del sitio y CSS/JS
- Estadisticas de reglas, agentes y tamano
- Descarga o copia en un clic
- Procesamiento local, sin cargar datos a servidores
- Modo responsive y soporte de modo oscuro
- Uso gratuito sin registro
