Le fichier robots.txt est un fichier texte placé à la racine d’un site web. Il indique aux robots des moteurs de recherche quelles pages ou sections explorer ou ignorer. Bien configuré, il optimise le crawl et protège votre contenu sensible. Mal paramétré, il peut bloquer tout votre site. Ce guide vous explique tout ce qu’il faut savoir.
Table des matières:
Qu’est-ce que le fichier robots.txt ?
Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP). C’est un fichier en texte brut que les robots des moteurs de recherche (Googlebot, Bingbot, etc.) consultent avant d’explorer un site. Il contient des directives qui autorisent ou interdisent l’accès à certaines URL.
Il ne s’agit pas d’un mécanisme de sécurité : un fichier robots.txt ne cache pas vos pages, il demande simplement aux robots de ne pas les visiter. Des robots malveillants peuvent l’ignorer.
À quoi sert le fichier robots.txt en SEO ?
Son rôle principal est de guider le budget de crawl des moteurs de recherche. En empêchant l’indexation de pages inutiles (doublons, pages d’administration, résultats de recherche interne), vous aidez Google à se concentrer sur votre contenu important. Cela améliore l’efficacité du crawl et peut booster votre référencement.
Les usages courants :
- Bloquer l’accès à des répertoires privés (ex: /admin/)
- Empêcher l’indexation de pages de recherche interne (ex: /search/)
- Éviter le crawl de fichiers volumineux (PDF, images)
- Gérer les ressources soumises à des limites (ex: API)
Comment créer et configurer un fichier robots.txt ?
Structure de base
Le fichier robots.txt utilise une syntaxe simple :
- User-agent : le nom du robot ciblé (ex: Googlebot, * pour tous)
- Disallow : les chemins à interdire
- Allow : les chemins à autoriser (prioritaire sur Disallow)
- Sitemap : l’emplacement de votre sitemap XML
Exemple minimal :
User-agent: * Disallow: /admin/ Sitemap: https://www.monsite.com/sitemap.xml
Où placer le fichier robots.txt ?
Le fichier doit être accessible à l’URL https://www.votresite.com/robots.txt. Il doit être en texte brut, sans extension ou avec l’extension .txt. Vérifiez qu’il est bien visible via votre navigateur.
Exemples concrets
| Objectif | Directive |
|---|---|
| Bloquer tout le site (attention !) | User-agent: * |
| Autoriser tous les robots | User-agent: * |
| Bloquer un répertoire spécifique | Disallow: /dossier-prive/ |
| Bloquer un fichier | Disallow: /fichier.pdf |
| Autoriser un sous-dossier dans un dossier interdit | Allow: /dossier-prive/public/ |
| Indiquer plusieurs sitemaps | Sitemap: https://.../sitemap1.xml |
Erreurs fréquentes à éviter
- Bloquer les CSS/JS : Google a besoin de ces fichiers pour comprendre la mise en page. Ne les bloquez pas.
- Utiliser Disallow: / sans raison : cela empêche tout le crawl, même votre page d’accueil.
- Oublier la directive Sitemap : aidez Google à trouver votre sitemap.
- Syntaxe incorrecte : une faute de frappe peut rendre une directive invalide.
- Confondre robots.txt et meta robots : le fichier contrôle le crawl, pas l’indexation. Pour empêcher l’indexation, utilisez
noindex.
Comment tester votre fichier robots.txt ?
Google Search Console propose un outil de test intégré. Allez dans « Crawl » > « Test des robots.txt ». Vous pouvez simuler le comportement de Googlebot sur une URL précise. Bing Webmaster Tools offre une fonctionnalité similaire.
Vérifiez régulièrement que vos directives sont respectées et qu’aucune page importante n’est bloquée par erreur.
Bonnes pratiques pour un robots.txt efficace
- Utilisez le wildcard (*) pour cibler tous les robots, sauf si vous avez des règles spécifiques.
- Gardez le fichier court et simple : trop de directives peuvent ralentir l’analyse.
- Ne bloquez jamais les pages essentielles : produits, articles, catégories.
- Mettez à jour le fichier après chaque changement de structure du site.
- Combinez avec les balises meta robots pour un contrôle fin de l’indexation.
Checklist de configuration
- Le fichier est accessible à l’URL racine
- Il est en UTF-8 sans BOM
- Les directives sont correctes (User-agent, Disallow, Allow, Sitemap)
- Les ressources CSS/JS ne sont pas bloquées
- La directive Sitemap pointe vers le bon fichier
- Testé avec l’outil de Google Search Console
Questions fréquentes sur le fichier robots.txt
Puis-je utiliser robots.txt pour empêcher l’indexation d’une page ?
Non, le fichier robots.txt empêche seulement le crawl. Si une page est déjà indexée, elle peut rester dans l’index même après avoir été bloquée. Utilisez la balise meta robots noindex pour empêcher l’indexation.
Que se passe-t-il si je n’ai pas de fichier robots.txt ?
Les robots explorent tout le site par défaut. C’est souvent acceptable, mais pour les grands sites, un fichier robots.txt permet de mieux gérer le budget de crawl.
Comment bloquer un robot spécifique ?
Indiquez son User-agent. Par exemple, pour bloquer Bingbot :
User-agent: Bingbot Disallow: /
Mon fichier robots.txt est-il sécurisé ?
Non, il est public. N’y placez jamais d’informations sensibles. Pour protéger des pages, utilisez l’authentification ou d’autres méthodes.
Puis-je avoir plusieurs fichiers robots.txt ?
Non, un seul fichier par domaine. Toutes les directives doivent être dans ce fichier unique.
Que signifie l’erreur « 404 pour robots.txt » dans Search Console ?
Cela signifie que Google ne trouve pas votre fichier robots.txt. Créez-en un et placez-le à la racine. Ce n’est pas bloquant, mais c’est déconseillé.
Pour aller plus loin : ressources complémentaires
Maîtrisez votre fichier robots.txt en consultant la documentation officielle de Google sur le protocole d’exclusion des robots. Testez régulièrement et ajustez selon l’évolution de votre site. Un bon fichier robots.txt est un atout pour votre SEO technique.
