Robot.txt
💡
Le fichier robots.txt est un fichier texte placé à la racine d’un site web qui sert à indiquer aux moteurs de recherche (comme Googlebot, Bingbot) quelles pages ou ressources ils sont autorisés ou interdits d’explorer. Il utilise le protocole d’exclusion des robots et permet de mieux contrôler l’indexation et le référencement.
Rôle et utilité en SEO
- – Contrôler l’exploration de certaines parties d’un site
– Protéger des pages sensibles ou sans intérêt SEO
– Optimiser le budget d’exploration des moteurs de recherche
– Indiquer l’emplacement du sitemap pour un meilleur référencement
– Gérer l’accès aux répertoires, fichiers CSS, JS ou images
Structure et directives clés
- 1. User-agent : désigne le robot visé (ex. User-agent: Googlebot)
2. Disallow : bloque l’accès à un répertoire ou une page (ex. Disallow: /admin/)
3. Allow : autorise l’accès à une ressource spécifique
4. Sitemap : indique l’URL du sitemap XML (ex. Sitemap: https://www.monsite.com/sitemap.xml)
Exemple simple de fichier robots.txt
makefile
User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://www.monsite.com/sitemap.xml
Bonnes pratiques
✅ Placer le fichier à la racine du site (ex. monsite.com/robots.txt)
✅ Limiter le blocage aux pages vraiment inutiles pour le SEO
✅ Tester le fichier via Google Search Console ⚠ Ne pas bloquer les fichiers CSS/JS nécessaires à l’affichage correct du site
Ne pas confondre robots.txt et balise noindex (ils ont des rôles différents)
Exemple concret
Un site e-commerce bloque l’exploration de ses pages de résultats internes (/recherche/) dans son fichier robots.txt, mais autorise l’indexation des fiches produits pour optimiser son référencement naturel.
Le fichier robots.txt est un outil stratégique en SEO pour guider les robots d’indexation et optimiser la visibilité d’un site. Bien configuré, il améliore le contrôle sur l’exploration, évite la surcharge serveur et aide à concentrer l’indexation sur les pages les plus importantes.