Robot.txt

💡

Le fichier robots.txt est un fichier texte placé à la racine d’un site web qui sert à indiquer aux moteurs de recherche (comme Googlebot, Bingbot) quelles pages ou ressources ils sont autorisés ou interdits d’explorer. Il utilise le protocole d’exclusion des robots et permet de mieux contrôler l’indexation et le référencement.

Rôle et utilité en SEO

  • Contrôler l’exploration de certaines parties d’un site
    Protéger des pages sensibles ou sans intérêt SEO
    Optimiser le budget d’exploration des moteurs de recherche
    Indiquer l’emplacement du sitemap pour un meilleur référencement
    Gérer l’accès aux répertoires, fichiers CSS, JS ou images

Structure et directives clés

  • 1. User-agent : désigne le robot visé (ex. User-agent: Googlebot)
    2. Disallow : bloque l’accès à un répertoire ou une page (ex. Disallow: /admin/)
    3. Allow : autorise l’accès à une ressource spécifique
    4. Sitemap : indique l’URL du sitemap XML (ex. Sitemap: https://www.monsite.com/sitemap.xml)

Exemple simple de fichier robots.txt

makefile

User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://www.monsite.com/sitemap.xml

Bonnes pratiques

Placer le fichier à la racine du site (ex. monsite.com/robots.txt)
Limiter le blocage aux pages vraiment inutiles pour le SEO
Tester le fichier via Google Search ConsoleNe pas bloquer les fichiers CSS/JS nécessaires à l’affichage correct du site

Ne pas confondre robots.txt et balise noindex (ils ont des rôles différents)

Exemple concret

Un site e-commerce bloque l’exploration de ses pages de résultats internes (/recherche/) dans son fichier robots.txt, mais autorise l’indexation des fiches produits pour optimiser son référencement naturel.

Le fichier robots.txt est un outil stratégique en SEO pour guider les robots d’indexation et optimiser la visibilité d’un site. Bien configuré, il améliore le contrôle sur l’exploration, évite la surcharge serveur et aide à concentrer l’indexation sur les pages les plus importantes.