Testador Robots.txt

Testador e validador online gratuito de robots.txt. Teste se URLs são permitidas ou bloqueadas pelas regras do robots.txt para diferentes bots de busca. Perfeito para SEO e desenvolvedores web.

Testador Robots.txt - Teste e Valide Regras de Rastreadores

Uma poderosa ferramenta de teste e validação de robots.txt que ajuda você a testar se URLs específicas são permitidas ou bloqueadas pelas regras do robots.txt para diferentes rastreadores de mecanismos de busca. Teste Google, Bing, Yahoo e user-agents personalizados para garantir que seu arquivo robots.txt funcione corretamente. Essencial para otimização de SEO e gerenciamento de rastreamento do site.

O que é robots.txt?

Robots.txt é um arquivo de texto colocado no diretório raiz de um site (por exemplo, example.com/robots.txt) que diz aos rastreadores de mecanismos de busca quais páginas ou seções do seu site eles podem ou não acessar. Ele usa diretivas simples:

- User-agent: Especifica a qual rastreador as regras se aplicam (* significa todos)
- Disallow: Diz aos rastreadores para não acessar caminhos específicos
- Allow: Permite explicitamente acesso a caminhos (substitui Disallow)
- Sitemap: Aponta rastreadores para seu sitemap XML
- Crawl-delay: Especifica atraso entre solicitações (não suportado por todos os bots)

Robots.txt faz parte do Protocolo de Exclusão de Robôs e é respeitado por mecanismos de busca respeitáveis como Google, Bing, Yahoo e outros. No entanto, não é uma medida de segurança - bots maliciosos podem ignorá-lo.

Como uso este testador de robots.txt?

Usar o testador é simples:

1. Cole o conteúdo do seu robots.txt na área de texto (ou clique em 'Carregar Exemplo' para um exemplo)
2. Selecione um User-Agent (Googlebot, Bingbot, etc.) ou escolha 'Personalizado' para bots específicos
3. Digite o caminho URL que deseja testar (por exemplo, /admin/dashboard)
4. Clique em 'Testar' para ver se o caminho é permitido ou não permitido

A ferramenta irá:
- Analisar todas as regras do robots.txt
- Aplicar as regras de precedência corretas
- Mostrar se a URL é permitida ou bloqueada
- Exibir qual regra específica correspondeu
- Mostrar todas as diretivas analisadas para referência

Você pode testar múltiplos caminhos e user-agents para garantir que seu robots.txt funcione conforme pretendido.

Quais são as regras de precedência do robots.txt?

Quando várias regras correspondem a uma URL, o robots.txt segue estas regras de precedência:

1. Caminho Mais Específico Vence: Uma regra mais longa e específica substitui uma mais curta
- Disallow: /admin/ vs Disallow: /admin/settings/
- O caminho mais longo tem precedência

2. Allow Vence Disallow: Quando as regras são igualmente específicas, Allow ganha
- Disallow: /admin/ + Allow: /admin/public/
- /admin/public/ é permitido apesar da regra Disallow

3. Especificidade do User-Agent: Regras específicas de user-agent substituem wildcard (*)
- Regras de User-agent: Googlebot têm precedência sobre User-agent: * para Google

4. Permitir por Padrão: Se nenhuma regra corresponder, o acesso é permitido por padrão

Nosso testador implementa corretamente essas regras para fornecer resultados precisos que correspondem à forma como os mecanismos de busca interpretam seu arquivo robots.txt.

Posso testar diferentes bots de busca?

Sim! A ferramenta suporta teste com muitos rastreadores de mecanismos de busca populares:

- Googlebot: Rastreador web principal do Google
- Googlebot-Image: Para Google Pesquisa de Imagens
- Googlebot-News: Para Google Notícias
- Googlebot-Video: Para Google Pesquisa de Vídeos
- Bingbot: Rastreador do Microsoft Bing
- Slurp: Rastreador web do Yahoo
- DuckDuckBot: Rastreador do DuckDuckGo
- Baiduspider: Baidu (mecanismo de busca chinês)
- YandexBot: Yandex (mecanismo de busca russo)
- Bots de redes sociais: Facebook, Twitter, LinkedIn
- Personalizado: Teste qualquer string de user-agent

Diferentes bots podem ter regras diferentes no seu robots.txt, e esta ferramenta permite testar cada um individualmente para garantir que se comportem conforme esperado.

O que são wildcards no robots.txt?

Robots.txt suporta dois wildcards importantes:

1. Asterisco (*) - Corresponde a qualquer sequência de caracteres
Exemplos:
- Disallow: /*.pdf$ (bloqueia todos os arquivos PDF)
- Disallow: /admin/* (bloqueia tudo sob /admin/)
- Allow: /public/*.html (permite todos os HTML em /public/)

2. Cifrão ($) - Corresponde ao final da URL
Exemplos:
- Disallow: /*.pdf$ (bloqueia URLs terminando em .pdf)
- Disallow: /admin$ (bloqueia /admin mas não /admin/page)
- Allow: /search$ (permite exatamente /search, não /search/results)

Sem $, uma regra corresponde a qualquer URL começando com esse padrão:
- Disallow: /admin (corresponde /admin, /admin/, /admin/page, /administrator)
- Disallow: /admin$ (corresponde apenas /admin)

Nosso testador trata corretamente ambos os wildcards para testar suas regras com precisão.

Erros comuns no robots.txt

Evite estes erros comuns no robots.txt:

1. Bloquear arquivos CSS/JS: Não bloqueie recursos que o Google precisa para renderizar páginas
- Ruim: Disallow: /*.css$
- Isso pode prejudicar o SEO pois o Google não consegue renderizar seu site adequadamente

2. Erros de digitação e sintaxe: Robots.txt é sensível a maiúsculas e minúsculas
- Use 'Disallow:', não 'disallow:' ou 'DisAllow:'
- Use 'User-agent:', não 'User-Agent:' (embora a maioria dos bots aceite ambos)

3. Bloquear site inteiro não intencionalmente:
- Disallow: / (bloqueia tudo!)
- Certifique-se de que isso é intencional

4. Usar robots.txt para segurança: Não é uma ferramenta de segurança
- Bots maliciosos o ignoram
- Use autenticação adequada em vez disso

5. Esquecer a diretiva Allow:
- Você pode desbloquear subdiretórios de diretórios bloqueados
- Disallow: /admin/ então Allow: /admin/public/

Use este testador para detectar esses erros antes de implantar seu robots.txt!

Meus dados estão seguros?

Sim, seus dados estão completamente seguros:

- Todo o teste acontece no seu navegador
- Nenhum conteúdo do robots.txt é enviado para qualquer servidor
- Não armazenamos ou registramos nenhum dado que você testa
- Funciona completamente offline após o carregamento da página
- Sem rastreamento ou análise dos seus dados de teste
- Processamento cliente de código aberto

Você pode verificar a privacidade checando a aba de rede do seu navegador - nenhuma solicitação é feita ao testar regras de robots.txt.