Testeur de robots.txt

Testez et validez votre fichier robots.txt pour chaque robot des moteurs de recherche. Vérifiez si une URL est autorisée ou bloquée pour Googlebot, Bingbot, Yahoo, DuckDuckBot ou tout user-agent personnalisé et éliminez les erreurs SEO avant la mise en ligne.

clearClearpastePaste

Testeur de robots.txt - Validez vos directives de crawl

Un validateur robots.txt puissant qui simule le comportement des robots des moteurs de recherche. Vérifiez si une URL est autorisée ou bloquée pour Google, Bing, Yahoo, DuckDuckGo, Baidu, Yandex ou tout bot personnalisé. Indispensable pour maîtriser l'indexation et éviter les erreurs SEO.

Qu'est-ce que robots.txt ?

Robots.txt est un fichier texte placé à la racine d'un site (ex. exemple.com/robots.txt) qui indique aux robots de recherche quelles zones peuvent être explorées. Principales directives :\n\n- User-agent : cible un robot spécifique (* = tous)\n- Disallow : interdit l'accès à un chemin\n- Allow : autorise explicitement un chemin (prime sur Disallow)\n- Sitemap : indique l'URL du sitemap XML\n- Crawl-delay : impose un délai entre deux requêtes (pas pris en charge par tous)\n\nIl fait partie du Robots Exclusion Protocol. Les bots sérieux (Google, Bing, etc.) le respectent, mais ce n'est pas un mécanisme de sécurité.

Comment utiliser ce testeur ?

Étapes :\n\n1. Collez votre robots.txt (ou chargez l'exemple)\n2. Choisissez un user-agent (Googlebot, Bingbot...) ou définissez le vôtre\n3. Indiquez le chemin URL à vérifier (ex. /admin/dashboard)\n4. Cliquez sur « Tester »\n\nL'outil :\n- Analyse toutes les règles\n- Applique les priorités officielles\n- Indique si l'URL est autorisée ou bloquée\n- Affiche la règle exacte ayant matché\n- Liste toutes les directives parsées pour référence\n\nTestez plusieurs chemins et bots pour garantir le comportement désiré.

Comment sont gérées les priorités de règles ?

Les moteurs appliquent ces règles de précédence :\n\n1. Chemin le plus spécifique : la règle la plus longue gagne\n2. Allow prime sur Disallow si la spécificité est identique\n3. Règles spécifiques au user-agent > wildcard (*)\n4. Si aucune règle ne correspond : accès autorisé par défaut\n\nNotre testeur respecte ces principes pour reproduire fidèlement l'interprétation des moteurs.

Puis-je tester différents robots ?

Oui, le testeur inclut :\n\n- Googlebot (web), Googlebot-Image, News, Video\n- Bingbot, Slurp (Yahoo), DuckDuckBot\n- Baiduspider, YandexBot\n- Bots sociaux (Facebook, Twitter, LinkedIn)\n- Mode personnalisé pour n'importe quel user-agent\n\nChaque robot peut avoir des règles dédiées : testez-les séparément pour éviter les surprises.

Comment fonctionnent les jokers dans robots.txt ?

Deux caractères sont essentiels :\n\n1. Astérisque (*) : correspond à n'importe quelle suite\n - Disallow: /*.pdf$ (bloque tous les PDF)\n - Disallow: /admin/* (bloque tout sous /admin/)\n\n2. Dollar ($) : ancre la fin de l'URL\n - Disallow: /*.pdf$ (URLs finissant par .pdf)\n - Disallow: /admin$ (uniquement /admin)\n\nSans $, un motif correspond à tout ce qui commence par cette chaîne. Notre testeur gère les deux pour simuler exactement les moteurs.

Erreurs courantes à éviter

Les pièges classiques :\n\n1. Bloquer les CSS/JS : Google doit les charger pour comprendre la page (ne pas interdire /*.css$)\n2. Typos / casse : robots.txt est sensible à la casse\n3. Bloquer tout le site par erreur (Disallow: /)\n4. Utiliser robots.txt comme barrière de sécurité (les mauvais bots l'ignorent)\n5. Oublier les directives Allow pour rouvrir une sous-arborescence\n\nTestez votre fichier ici avant de le publier pour éviter ces erreurs.

Mes données sont-elles privées ?

Oui :\n\n- Tout est traité côté navigateur\n- Aucun contenu n'est envoyé sur un serveur\n- Aucune donnée n'est stockée ou journalisée\n- L'outil fonctionne hors ligne après chargement\n- Aucun suivi n'est appliqué\n\nVous pouvez vérifier dans l'onglet Réseau : aucune requête n'est effectuée lors d'un test.