Table des matières:
Qu’est-ce que le fichier robots.txt ? Définition et rôle
Le fichier robots.txt est un fichier texte placé à la racine d’un site web. Il indique aux robots des moteurs de recherche (Googlebot, Bingbot, etc.) quelles pages ou sections ils peuvent ou ne peuvent pas explorer et indexer. C’est un standard du protocole d’exclusion des robots (REP) utilisé depuis 1994.
Ce fichier ne bloque pas l’accès aux pages : il demande simplement aux robots de ne pas les visiter. Un robot malveillant peut l’ignorer. Pour une protection réelle, utilisez l’authentification ou d’autres méthodes.
Pourquoi le fichier robots.txt est important pour le SEO ?
Un fichier robots.txt bien configuré permet de :
- Économiser le budget d’exploration (crawl budget) en évitant que Google explore des pages inutiles (pages de connexion, résultats de recherche internes, doublons).
- Éviter l’indexation de contenu sensible (pages d’administration, fichiers temporaires).
- Guider les robots vers les contenus importants en pointant vers votre sitemap XML.
Attention : un mauvais paramétrage peut nuire à votre référencement en bloquant des pages essentielles.
Comment créer et configurer un fichier robots.txt ?
Syntaxe de base du fichier robots.txt
Le fichier utilise une syntaxe simple :
- User-agent : le nom du robot ciblé (ex: Googlebot, * pour tous).
- Disallow : les chemins à interdire.
- Allow : les chemins à autoriser (utile pour surcharger une interdiction).
- Sitemap : l’URL de votre sitemap XML.
Exemple simple :
User-agent: * Disallow: /admin/ Disallow: /tmp/ Sitemap: https://www.monsite.com/sitemap.xml
Où placer le fichier robots.txt ?
Le fichier doit être placé à la racine du domaine, accessible à l’adresse : https://www.votresite.com/robots.txt. Il doit être en texte brut (UTF-8) et ne pas dépasser 500 Ko (taille recommandée).
Configurer robots.txt pour différents cas
Bloquer un dossier entier
Disallow: /dossier-prive/
Bloquer une page spécifique
Disallow: /page-confidentielle.html
Autoriser un robot spécifique
User-agent: Googlebot Disallow: User-agent: * Disallow: /
Bloquer les images d’un dossier
User-agent: Googlebot-Image Disallow: /images-privees/
Erreurs courantes à éviter dans robots.txt
- Bloquer tous les robots avec
Disallow: /: votre site ne sera pas indexé. - Oublier la directive Sitemap : les moteurs risquent de ne pas trouver votre sitemap.
- Utiliser des chemins relatifs incorrects : le chemin doit commencer par /.
- Bloquer des fichiers CSS ou JavaScript : Google peut mal interpréter vos pages.
- Ne pas tester le fichier : utilisez l’outil de test robots.txt dans Google Search Console.
Comment tester votre fichier robots.txt ?
Avant de le mettre en production, testez-le avec :
- Google Search Console : outil de test robots.txt intégré.
- Bing Webmaster Tools : outil similaire.
- Outils en ligne comme le validateur de robots.txt.
Vérifiez que les pages importantes (comme votre page d’accueil) ne sont pas bloquées.
robots.txt vs meta robots : quelles différences ?
| Critère | robots.txt | Meta robots |
|---|---|---|
| Niveau d’action | Empêche l’exploration | Empêche l’indexation (ou autres) |
| Où se place | Fichier à la racine | Dans le code HTML de la page |
| Effet sur les liens | Les liens ne sont pas suivis si la page n’est pas explorée | Les liens peuvent être suivis si noindex sans nofollow |
| Recommandation | Pour les dossiers entiers ou fichiers non sensibles | Pour des pages spécifiques à ne pas indexer |
Exemple complet de fichier robots.txt optimisé SEO
User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /search/ Allow: /wp-admin/admin-ajax.php User-agent: Googlebot-Image Disallow: /wp-content/uploads/private/ Sitemap: https://www.monsite.com/sitemap_index.xml
Ce fichier bloque l’accès aux dossiers techniques de WordPress, aux résultats de recherche, et autorise l’admin-ajax.php pour le bon fonctionnement du site. Il pointe vers le sitemap et bloque les images privées pour Google Images.
Questions fréquentes sur le fichier robots.txt
1. Est-ce que robots.txt peut améliorer le SEO ?
Indirectement oui, en optimisant le budget d’exploration et en évitant l’indexation de pages de faible valeur. Mais il ne booste pas directement le classement.
2. Comment savoir si mon robots.txt est correct ?
Utilisez l’outil de test de Google Search Console. Il vous indiquera si une URL est bloquée ou non.
3. Puis-je utiliser des expressions régulières dans robots.txt ?
Google supporte certaines expressions comme * et $, mais il est préférable de rester simple avec des chemins précis.
4. Que faire si j’ai plusieurs domaines ou sous-domaines ?
Chaque sous-domaine doit avoir son propre fichier robots.txt à la racine de ce sous-domaine.
5. Le fichier robots.txt est-il obligatoire ?
Non, mais il est fortement recommandé pour les sites de taille moyenne à grande.
Recommandations pour une configuration réussie
Pour terminer, voici une checklist à suivre :
- ✅ Créez un fichier robots.txt à la racine de votre site.
- ✅ Utilisez
User-agent: *pour couvrir tous les robots. - ✅ Bloquez les dossiers inutiles (admin, tmp, etc.).
- ✅ Autorisez les ressources CSS/JS si besoin.
- ✅ Ajoutez la directive Sitemap.
- ✅ Testez avec Google Search Console.
- ✅ Surveillez les erreurs d’exploration dans Search Console.
Une configuration réfléchie de votre fichier robots.txt contribue à une meilleure santé SEO de votre site. N’oubliez pas de le mettre à jour si vous modifiez la structure de votre site.
