Table des matières:
Qu’est-ce que le fichier robots.txt ? Définition et rôle essentiel
Le fichier robots.txt est un fichier texte placé à la racine de votre site web, qui indique aux robots des moteurs de recherche (Googlebot, Bingbot, etc.) les pages ou sections qu’ils peuvent ou ne peuvent pas explorer et indexer. C’est un standard d’exclusion volontaire, respecté par les robots bienveillants. Il ne s’agit pas d’une mesure de sécurité, mais d’un outil de gestion du crawl.
Ce fichier est lu en premier par les robots lorsqu’ils arrivent sur votre site. S’il est mal configuré, il peut bloquer l’indexation de tout votre site, ce qui aurait un impact désastreux sur votre référencement. À l’inverse, une configuration optimale permet de guider les robots vers le contenu important et d’économiser votre budget de crawl.
À quoi sert le fichier robots.txt en SEO ?
Le fichier robots.txt joue un rôle clé dans le SEO technique. Voici ses principaux usages :
- Bloquer l’accès à des pages non essentielles : pages d’administration, de connexion, de panier, résultats de recherche interne, etc.
- Éviter le contenu dupliqué : en bloquant des versions alternatives d’une même page (paramètres d’URL, versions imprimables).
- Gérer la charge serveur : en limitant le crawl sur les sections lourdes ou inutiles.
- Indiquer l’emplacement du sitemap : ce qui facilite la découverte de vos pages importantes.
- Contrôler le crawl de ressources spécifiques : fichiers PDF, images, vidéos, etc.
Il est important de noter que le robots.txt ne garantit pas qu’une page ne sera pas indexée : si une page est accessible via un lien externe, Google peut décider de l’indexer même si le fichier robots.txt interdit son exploration. Pour empêcher l’indexation, utilisez plutôt la balise meta robots noindex.
Comment fonctionne le fichier robots.txt ?
Le fichier robots.txt utilise une syntaxe simple basée sur des enregistrements. Chaque enregistrement commence par un User-agent (le nom du robot) suivi de directives Disallow et/ou Allow.
Syntaxe de base
- User-agent : spécifie le robot concerné (ex: Googlebot, Bingbot, ou * pour tous).
- Disallow : indique le chemin à ne pas explorer.
- Allow : autorise l’exploration d’un chemin spécifique (utile pour surcharger une règle Disallow plus large).
- Sitemap : indique l’URL du sitemap du site.
Exemple de fichier robots.txt de base
User-agent: * Disallow: /admin/ Disallow: /tmp/ Sitemap: https://www.exemple.com/sitemap.xml
Dans cet exemple, tous les robots sont interdits d’accès aux dossiers /admin/ et /tmp/, et le sitemap est indiqué.
Comment configurer votre fichier robots.txt étape par étape
1. Créer le fichier
Créez un fichier texte nommé robots.txt (en minuscules). Il doit être placé à la racine de votre site, c’est-à-dire dans le répertoire public (ex: public_html, www). Il doit être accessible à l’URL : https://www.votresite.com/robots.txt.
2. Définir les règles de base
Pour la plupart des sites, une configuration simple suffit :
User-agent: * Disallow:
Ceci autorise tous les robots à explorer l’ensemble du site. Si vous souhaitez bloquer certaines sections, ajoutez des directives Disallow.
3. Ajouter le sitemap
Indiquez l’URL de votre sitemap XML pour aider les moteurs de recherche à découvrir vos pages :
Sitemap: https://www.votresite.com/sitemap.xml
4. Tester votre fichier avec Google Search Console
Avant de mettre en ligne, utilisez l’outil Testeur de robots.txt dans Google Search Console pour vérifier que vos règles n’ont pas d’effets indésirables. Cet outil simule l’exploration d’une URL et indique si elle est bloquée ou non.
Bonnes pratiques pour une configuration optimale
- Utilisez Allow avec parcimonie : n’autorisez que si nécessaire pour débloquer une sous-section.
- Évitez de bloquer les fichiers CSS et JS : Google a besoin de ces ressources pour comprendre la mise en page et le contenu (sauf si vous utilisez un rendu côté serveur).
- Ne bloquez pas les pages que vous voulez indexer : vérifiez que vos pages importantes ne sont pas incluses dans un Disallow.
- Utilisez des commentaires : les lignes commençant par # sont ignorées, vous pouvez commenter vos règles.
- Respectez la casse : les chemins sont sensibles à la casse (ex: /Admin/ est différent de /admin/).
- Limitez le nombre de directives : un fichier trop complexe peut être mal interprété.
Erreurs courantes à éviter
| Erreur | Conséquence | Solution |
|---|---|---|
| Bloquer tout le site avec Disallow: / | Google n’explore aucune page | Utilisez Disallow uniquement pour les sections sensibles |
| Oublier le sitemap | Découverte ralentie des nouvelles pages | Ajoutez toujours la directive Sitemap |
| Bloquer les ressources CSS/JS | Googlebot ne voit pas le contenu rendu | Autorisez l’accès aux dossiers contenant ces fichiers |
| Fichier mal placé | Le fichier n’est pas trouvé | Placez-le à la racine du domaine |
| Syntaxe incorrecte | Règles ignorées | Utilisez des éditeurs de texte simple et testez |
Comment tester et valider votre fichier robots.txt
Après avoir configuré votre fichier, il est crucial de le tester. Google Search Console propose un outil dédié :
Allez dans Index > Fichier robots.txt et saisissez une URL de votre site pour vérifier si elle est autorisée ou bloquée. Vous pouvez également utiliser des outils en ligne comme le Robots.txt Checker de Merkle.
N’oubliez pas de vider le cache si vous utilisez un plugin de cache, car certains robots peuvent lire une version mise en cache.
Questions fréquentes sur le fichier robots.txt
Le fichier robots.txt empêche-t-il l’indexation ?
Non, il empêche seulement l’exploration. Une page peut être indexée via des liens externes même si elle est bloquée dans robots.txt. Pour empêcher l’indexation, utilisez la balise <meta name="robots" content="noindex"> ou l’en-tête HTTP X-Robots-Tag.
Puis-je avoir plusieurs User-agent ?
Oui, vous pouvez définir des règles différentes pour différents robots. Par exemple, bloquer certaines sections pour Googlebot mais les autoriser pour Bingbot.
Que faire si je n’ai pas de fichier robots.txt ?
Ce n’est pas grave, les robots exploreront tout le site par défaut. Mais il est recommandé d’en créer un pour indiquer votre sitemap et éviter le gaspillage de crawl.
Le fichier robots.txt affecte-t-il le PageRank ?
Non, il n’a pas d’impact direct sur le PageRank. Cependant, en optimisant le crawl, vous aidez Google à découvrir et indexer plus efficacement vos pages importantes, ce qui peut indirectement améliorer votre SEO.
Recommandations pour une configuration réussie
Pour tirer le meilleur parti de votre fichier robots.txt :
- Commencez par une configuration simple et testez-la avant d’ajouter des règles complexes.
- Utilisez Google Search Console pour surveiller les erreurs de crawl et ajuster vos règles.
- Si vous utilisez un CMS comme WordPress, des plugins SEO (Yoast, Rank Math) peuvent générer automatiquement un fichier robots.txt de base, mais vérifiez toujours sa configuration.
- Pensez à inclure votre sitemap pour faciliter la découverte de vos pages.
- Revoyez périodiquement votre fichier robots.txt, surtout après une refonte ou un changement de structure.
En maîtrisant le fichier robots.txt, vous prenez le contrôle sur l’exploration de votre site par les moteurs de recherche, ce qui est un atout majeur pour votre stratégie SEO. N’hésitez pas à consulter la documentation officielle de Google pour approfondir.
Photo by aldi sigun on Unsplash

Merci pour cet article complet. Petite remarque : il serait utile de mentionner que les robots malveillants ignorent le robots.txt, ce qui est important pour la sécurité.
Excellente remarque. En effet, le robots.txt est un standard volontaire, respecté uniquement par les robots bienveillants. Les robots malveillants (scrapers, hackers) ne le lisent pas. Pour la sécurité, il faut utiliser d’autres mesures comme l’authentification ou les pare-feu. Merci d’avoir souligné ce point !
Article très utile. Une question : si j’utilise ‘Allow’ et ‘Disallow’ pour le même chemin, quelle règle l’emporte ?
Bonne question. En général, la règle la plus spécifique l’emporte. Pour Google, ‘Allow’ a priorité sur ‘Disallow’ pour un même chemin. Par exemple, ‘Disallow: /folder/’ et ‘Allow: /folder/file.html’ autorisera l’accès à file.html. Mais il vaut mieux éviter les conflits pour plus de clarté.
Merci pour cet article. Je viens de créer mon premier site et j’ai mis ‘Disallow: /’ par erreur. Comment le corriger ?
Pas de panique ! Il suffit de modifier votre fichier robots.txt et de remplacer ‘Disallow: /’ par ‘Disallow:’ (rien après) ou par ‘Allow: /’ pour autoriser tout. Pensez à vérifier avec l’outil de test robots.txt dans Google Search Console après modification.
Bonjour, article très clair. J’ai une question : est-ce que le fichier robots.txt peut empêcher l’indexation d’une page si celle-ci est déjà indexée ?
Merci ! Non, le robots.txt ne peut pas empêcher l’indexation d’une page déjà indexée, car il contrôle uniquement l’exploration. Pour empêcher l’indexation, il faut utiliser une balise meta robots noindex ou l’en-tête HTTP X-Robots-Tag. Si une page est déjà indexée, le robots.txt ne la fera pas disparaître des résultats de recherche.
J’ai remarqué que mon fichier robots.txt bloque les images dans un dossier, mais elles apparaissent encore dans Google Images. Pourquoi ?
C’est normal. Le robots.txt empêche l’exploration, mais si les images sont accessibles via des liens directs ou externes, Google peut les indexer quand même. Pour éviter cela, utilisez la balise meta robots noindex sur les pages contenant ces images ou l’en-tête X-Robots-Tag: noindex pour les fichiers image.
Super guide ! Juste une précision : dans l’exemple, vous mettez ‘Disallow: /admin/’ mais est-ce que ça bloque aussi les sous-dossiers comme /admin/backup/ ?
Oui, tout à fait. ‘Disallow: /admin/’ bloque l’accès à tous les chemins commençant par /admin/, donc /admin/backup/ est également bloqué. C’est une règle de préfixe.
Est-ce qu’il faut mettre le sitemap dans le robots.txt ? J’ai lu que c’était optionnel.
Oui, c’est optionnel mais fortement recommandé. Indiquer l’URL de votre sitemap dans le robots.txt aide les moteurs de recherche à découvrir rapidement vos pages importantes, surtout si votre site est nouveau ou si votre structure de liens est complexe. Cela ne remplace pas la soumission via Google Search Console.
Je comprends mieux maintenant. Mais comment tester si mon fichier robots.txt fonctionne correctement ?
Vous pouvez utiliser l’outil de test robots.txt dans Google Search Console. Il vous permet de simuler l’exploration d’une URL et de voir si elle est bloquée ou non. Vous pouvez aussi vérifier l’accessibilité de votre fichier en vous rendant directement sur https://votresite.com/robots.txt.