Plus de jeux sur WuGames.ioSponsoriséDécouvrez des jeux de navigateur gratuits — jouez aussitôt, sans téléchargement ni inscription.Jouer

Générateur Robots.txt

Créez un robots.txt avec testeur d'URL en direct et un linter de conformité RFC 9309 (Robots Exclusion Protocol). Préréglages WordPress, e-commerce et blog inclus.

Config Basic Configuration
Your website URL (optional, for reference)
Recommended: helps search engines discover your content
Presets Préréglages rapides
Click to apply common rules for your site type
Rules User-agents et règles
Paths Chemins courants

Sélectionnez :

Advanced Options avancées
Délai entre deux requêtes (optionnel)

Générateur Robots.txt - Créez un fichier propre et SEO-friendly

Configurez vos directives d'exploration en quelques secondes, bloquez les zones sensibles et gardez vos ressources accessibles aux moteurs.

Qu'est-ce que robots.txt ?

Robots.txt est un fichier texte placé à la racine du site qui indique aux robots quelle partie de votre contenu ils peuvent explorer. Il suit le Robots Exclusion Protocol et sert à : limiter la charge serveur, éviter l'indexation de pages dupliquées, empêcher l'accès aux zones privées ou de test et gérer le crawl budget.

Comment fonctionne robots.txt ?

Les robots visitent d'abord https://votresite.com/robots.txt. Le fichier contient des directives :\n- `User-agent` : bot ciblé (`*` = tous)\n- `Disallow` : chemins à ne pas crawler\n- `Allow` : exceptions explicitement autorisées\n- `Sitemap` : URL du sitemap XML\n- `Crawl-delay` : délai entre deux requêtes\nLes moteurs majeurs respectent ces règles, mais robots.txt n'arrête pas les bots malveillants.

Que faut-il bloquer ?

Bloquez généralement :\n- Zones d'administration (/admin/, /wp-admin/, /login/)\n- Dossiers techniques (/cgi-bin/, /tmp/, /includes/)\n- Pages filtrées, recherches internes, versions imprimables\n- Données privées (/private/, /confidential/)\nNe bloquez jamais vos CSS/JS critiques, vos pages produits ou votre sitemap.

Quelle différence entre Allow et Disallow ?

`Disallow` interdit un chemin. `Allow` crée une exception dans une zone bloquée. Exemple :\n```
User-agent: *
Disallow: /private/
Allow: /private/blog/
```\nCette règle bloque /private/ mais autorise /private/blog/. Les chemins spécifiques priment sur les règles générales.

Générateur Robots.txt — Créez un robots.txt avec testeur d'URL en direct et un linter de conformité RFC 9309 (Robots Exclusion Protocol). Prérég
Générateur Robots.txt

Dois-je ajouter mon sitemap et un crawl-delay ?

Oui, ajoutez toujours `Sitemap: https://votresite.com/sitemap.xml` pour guider les robots. Le crawl-delay est utile uniquement si votre serveur est saturé : commencez par 1-5 s et évitez les valeurs élevées qui ralentissent l'indexation. Google ignore crawl-delay (à ajuster via Search Console).

Disallow dans robots.txt vs noindex et X-Robots-Tag : qui désindexe réellement une page ?

Ils résolvent des problèmes différents, et les confondre est l'erreur SEO la plus courante.\n\n**Disallow dans robots.txt** ne contrôle que l'EXPLORATION : il indique au robot de ne pas télécharger une URL. Il ne RETIRE PAS la page de l'index. Une URL en Disallow peut même apparaître dans les résultats Google (sans description) si d'autres sites y renvoient, car Google ne l'a jamais explorée pour voir un noindex.\n\n**meta noindex** (`<meta name="robots" content="noindex">`) et l'en-tête HTTP **X-Robots-Tag** contrôlent l'INDEXATION : ils demandent à Google de retirer la page de l'index.\n\nLe point clé : pour que Google VOIE le noindex, la page ne doit PAS être bloquée dans robots.txt. Si vous la bloquez, le robot ne la télécharge jamais et ne lit pas le noindex, donc elle peut rester indexée.\n\n**Règles pratiques :**\n- Vous voulez retirer une page des résultats ? Utilisez noindex et NE la bloquez PAS dans robots.txt.\n- Vous voulez économiser le crawl budget sur des URL sans valeur (filtres, calendriers) ? Utilisez Disallow.\n- X-Robots-Tag est idéal pour les fichiers non HTML (PDF, images) : envoyez `X-Robots-Tag: noindex` dans l'en-tête.\n- robots.txt est PUBLIC et indicatif - ne l'utilisez jamais pour cacher des données sensibles ; utilisez l'authentification.

Quelle est la limite de taille du robots.txt et comment fonctionne la précédence des règles ?

**Limite de taille :** Google impose un maximum de 500 Kio (environ 512 000 octets). Le contenu au-delà est ignoré. Gardez le fichier léger ; le contrôle de conformité affiche la taille en octets pour confirmer que vous êtes sous la limite.\n\n**Précédence des règles (RFC 9309 - la correspondance la plus longue l'emporte) :** lorsque plusieurs règles Allow et Disallow correspondent à la même URL, le robot n'utilise PAS la première ni la dernière du fichier. Il choisit la règle dont le motif correspond au PLUS GRAND nombre de caractères. L'ordre dans le fichier n'a aucune importance.\n\nExemple :\n```
User-agent: *
Disallow: /folder/
Allow: /folder/public/
```\nPour /folder/public/page.html, "/folder/public/" (14 caractères) est plus longue que "/folder/" (8), donc Allow l'emporte et la page est explorable.\n\n**En cas d'égalité :** si un Allow et un Disallow ont une correspondance de même longueur, Allow l'emporte. Le testeur d'URL de cet outil applique exactement cette logique, jokers '*' et '$' inclus, pour un verdict conforme au comportement réel de Googlebot.

Comment fonctionnent le joker '*' et l'ancre '$' dans les chemins robots.txt ?

Google et les principaux robots prennent en charge deux caractères de motif dans les chemins (RFC 9309) :\n\n**'*' (astérisque)** correspond à n'importe quelle suite de caractères, y compris aucune.\n- `Disallow: /*?sort=` bloque toute URL contenant "?sort=", ex. /products?sort=asc.\n- `Disallow: /private*/` bloque /private/, /private-data/, etc.\n\n**'$' (dollar)** ancre la correspondance à la FIN du chemin.\n- `Disallow: /*.pdf$` bloque toute URL se terminant par .pdf, mais pas /file.pdf?download=1.\n- `Allow: /$` n'autorise QUE la page d'accueil.\n\nComme les préréglages de cet outil génèrent des règles avec jokers telles que /*?sort= et /*?filter=, le testeur intégré convertit ces motifs en véritables correspondances : en testant https://example.com/products?sort=asc, il indique correctement Bloqué.

Comment tester et éviter les erreurs ?

Utilisez la Search Console Google, Bing Webmaster Tools ou l'outil de test intégré pour vérifier chaque URL et user-agent. Points de vigilance :\n- Ne pas bloquer / ni les fichiers CSS/JS\n- Robots.txt doit être à la racine\n- Documentez vos règles et supprimez les anciennes directives de préproduction\n- Vérifiez les 404 et statistiques de crawl après chaque mise à jour