Accueil
/
Aide du site web
/
Fichier robots.txt : définition et bonnes pratiques

Fichier robots.txt : définition et bonnes pratiques

Le SEO est crucial pour gérer un site web, car il s’assure que vos pages sont facilement détectables et optimisées pour les moteurs de recherche. Le fichier robots.txt joue un rôle clé en guidant les robots d’indexation sur les parties de votre site web à explorer et à indexer.

Cet article explore le rôle du fichier robots.txt dans le classement SEO et présente les meilleures pratiques pour optimiser son efficacité. Découvrons ensemble ce qu’est le fichier robots.txt et comment en exploiter pleinement le potentiel !

Un fichier robots.txt indique aux robots des moteurs de recherche les parties d’un site web qu’ils doivent explorer et celles qu’ils doivent négliger, ce qui permet de gérer la charge du serveur, d’éviter les demandes excessives et de contrôler le budget de crawl.

Le fichier robots.txt est un élément fondamental du SEO technique, vous aidant à :

  • gérer le budget de crawl ;
  • empêcher l’indexation des pages contenant des informations sensibles ;
  • et améliorer l’efficacité du site web.

Le budget de crawl est le nombre de pages qu’un moteur de recherche peut explorer sur une période donnée pour un site web spécifique. Ce n’est pas un nombre fixe; il varie pour chaque site en fonction du nombre de pages web, de la fréquence de mise à jour, des paramètres du serveur web, etc.

Toutefois, il n’empêche pas les pages d’apparaître dans les résultats de recherche de Google ; pour cela, les propriétaires de sites web doivent utiliser des directives « noindex » ou d’autres méthodes d’exclusion. En revanche, ces pages bloquées n’auront pas de méta description.

Ce fichier txt se trouve dans le répertoire racine d’un site web et suit le protocole d’exclusion des robots (REP), que la plupart des moteurs de recherche respectent.

Dans l’image ci-dessous, vous pouvez voir ce que contient généralement un fichier robots.txt.

Contenu d'un fichier robots.txt

Pourquoi robots.txt est-il important pour le classement SEO ?

Les moteurs de recherche tels que Google, Bing et Yahoo utilisent des robots d’indexation pour indexer les pages web. Cependant, toutes les pages ne doivent pas être indexées ou explorées fréquemment. Le fichier robots.txt permet de :

  • optimiser l’efficacité de l’exploration
  • protéger le contenu privé
  • empêcher les pages dupliquées d’affecter le classement SEO

Bien qu’il ne renforce pas la sécurité, il sert de directive pour les robots des moteurs de recherche, leur indiquant comment traiter les pages web.

De plus, lorsque Googlebot visite un domaine pour la première fois, il recherche automatiquement le fichier robots.txt à l’adresse suivante: « https://votredomaine.com/robots.txt », Il s’agit donc de l’un des tout premiers fichiers que les robots d’indexation vérifient lorsqu’ils visitent un site web.

Comment vérifier si votre site web possède un fichier robots.txt ?

Pour vérifier si votre site web possède un fichier robots.txt, accédez à l’adresse suivante dans un navigateur web. Remplacez votredomaine.com par le nom de domaine de votre site web.

votredomaine.com/robots.txt

Si le fichier existe, son contenu sera affiché. Sinon, vous devrez peut-être créer un fichier robots.txt.

robots.txt dans un navigateur web

Comment créer et accéder au fichier robots.txt ?

  1. Création d’un fichier robots.txt : Ouvrez un éditeur de texte simple comme le NotePad (Windows) ou TextEdit (Mac). Les utilisateurs de SiteGround peuvent également utiliser le Gestionnaire de fichiers disponible dans Site Tools. Créez un nouveau fichier, ajoutez les directives et nommez-le robots.txt. Assurez-vous qu’il est enregistré au format texte brut, encodé en UTF-8.
    Création d'un fichier robots.txt
  2. Téléchargement du fichier robots.txt : À l’aide d’un client FTP ou du gestionnaire de fichiers de votre hébergeur web, téléchargez le fichier robots.txt dans le répertoire racine (public_html/) de votre site web. Cela garantit son accès à votredomaine.com/robots.txt. Si vous avez créé le fichier avec le gestionnaire de fichiers de votre compte d’hébergement, vous pouvez franchir cette étape.
    Télécharger un fichier robots.txt avec un client FTP
  3. Test et validation : Pour vérifier que votre fichier robots.txt est correctement formaté et accessible, utilisez Google’s Robots.txt Tester. Cet outil permet d’identifier les erreurs et de garantir que les moteurs de recherche traitent correctement le fichier.

Syntaxe et règles du fichier robots.txt

Le fichier robots.txt contient des règles qui spécifient comment les différents robots d’indexation doivent interagir avec un site web. Les consignes les plus courantes incluent :

1.Gestion des agents utilisateurs et des robots d’indexation

Il définit le bot auquel la règle s’applique. Les différents moteurs de recherche et robots d’indexation ont des exigences uniques. C’est pourquoi le fait de spécifier un agent utilisateur permet d’élaborer des règles sur mesure qui optimisent les performances du site web. Par exemple, si vous n’indiquez que « Googlebot », cela signifie que les règles ne s’appliqueront qu’à cet agent utilisateur, mais pas à d’autres agents utilisateurs tels que Bingbot.

User-agent: Googlebot

2. Disallow

Cette règle empêche les moteurs de recherche de parcourir certaines parties d’un site web. Elle est utile lorsque vous souhaitez éviter les problèmes de contenu dupliqué, comme empêcher les moteurs de recherche d’indexer les pages de catégories avec des paramètres de filtre. Par exemple :

Disallow: /category-name/?filter=*

Vous pouvez également empêcher l’exploration d’une catégorie entière si elle n’est pas pertinente pour les moteurs de recherche :

Disallow: /category-name/

En faisant cela, vous aidez les moteurs de recherche à se concentrer sur les pages les plus importantes de votre site web et à éviter de gaspiller le budget de crawl sur des sections inutiles.

3. Allow

Remplace le règle « Disallow », permettant aux moteurs de recherche de parcourir des pages ou des répertoires spécifiques qui seraient autrement bloqués. Cette fonction est utile lorsque vous devez restreindre l’accès à la majeure partie d’une section tout en autorisant l’indexation de certains fichiers importants. Par exemple :

Disallow: /private/
Allow: /private/public-file.html

Cette configuration empêche les moteurs de recherche d’explorer tout ce qui se trouve dans le répertoire /private/, à l’exception du fichier public.html. L’utilisation correcte du règle « Allow » permet de maintenir un équilibre entre la protection de la vie privée et la possibilité de découverte.

4. Crawl-delay

Cette règle limite la fréquence d’exploration. Google ne la prend pas en charge, mais d’autres moteurs de recherche tels que Bing et Yandex le font. Ajuster le retardement d’exploration peut contribuer à réduire la charge du serveur, en particulier pour les sites web volumineux avec des mises à jour fréquentes.

Crawl-delay: 10

5. Inclusion du sitemap

Inclure un plan de site web dans votre fichier robots.txt permet aux moteurs de recherche de trouver et d’indexer rapidement les pages importantes de votre site. Ceci est particulièrement utile pour les grands sites web comportant de nombreuses pages qui, autrement, pourraient mettre plus de temps à être découvertes.

Bien que cela ne soit pas obligatoire, l’ajout d’une directive sitemap dans le fichier robots.txt est une bonne pratique pour s’assurer que les moteurs de recherche peuvent explorer efficacement la structure de votre site. Il est préférable d’inclure le sitemap XML à la fin du fichier robots.txt.

Sitemap: https://votredomaine.com/sitemap.xml

Bonnes pratiques pour le fichier robots.txt

1. Éviter de bloquer les pages importantes

Le blocage de pages essentielles (par exemple, /blog/, /services/) peut avoir un impact négatif sur le classement SEO en empêchant les moteurs de recherche d’indexer un contenu précieux.

Par exemple, le blocage de la page /nom-catégorie/ peut masquer involontairement toutes les pages de produits ou d’articles associées, telles que /nom-catégorie/produit-1/.

Si vous devez restreindre l’accès à des pages spécifiques tout en laissant le reste visible, envisagez d’utiliser une approche plus précise :

Disallow: /category-name/private-page/

Alternativement, bloquer une catégorie entière peut être utile si elle contient du contenu peu important ou dupliqué :

Disallow: /category-name/

En examinant attentivement les sections à bloquer, vous garantissez que le contenu important reste indexable tout en contrôlant l’efficacité de l’exploration.

2. Éviter l’indexation des pages dupliquées et de faible valeur ajoutée

Pour éviter de gaspiller le budget de crawl et d’indexer des pages inutiles ou dupliquées dans les résultats de recherche, utilisez la règle « Disallow ». Les pages à faible valeur ajoutée, telles que les zones d’administration, les résultats de recherche internes et les URL générées dynamiquement, doivent généralement être bloquées. Voici quelques exemples :

Disallow: /wp-admin/
Disallow: /?s=

3. Utiliser efficacement les wildcards et la correspondance de motifs

Les wildcards et la correspondance de motifs dans le fichier robots.txt permettent un contrôle plus souple et plus précis des pages que les moteurs de recherche peuvent ou non explorer. Cela est particulièrement utile pour gérer les URL générées dynamiquement ou pour bloquer des types de fichiers spécifiques.

Par exemple, si votre site web génère des URL avec des filtres que vous ne souhaitez pas voir indexés, vous pouvez utiliser :

Disallow: /*?filter=*

Cela empêche les moteurs de recherche d’explorer toute URL contenant ?filter= quelle que soit la valeur.

De même, si vous souhaitez empêcher l’exploration de tous les fichiers PDF, vous pouvez utiliser :

Disallow: /*.pdf$

Le symbole « $ » à la fin garantit que seules les URL se terminant par .pdf sont bloquées, plutôt que de bloquer toute URL contenant .pdf n’importe où dans sa structure.

L’utilisation stratégique de wildcards vous aide à optimiser votre budget de crawl tout en empêchant l’apparition de pages inutiles ou non pertinentes dans les résultats de recherche.

4. S’assurer de l’accessibilité du fichier robots.txt

En veillant à ce que votre fichier robots.txt soit accessible, vous vous assurez que les robots web peuvent lire et suivre ses instructions correctement. Un fichier robots.txt mal configuré ou défectueux peut involontairement empêcher les moteurs de recherche d’explorer l’ensemble de votre site web, ce qui entraîne de graves problèmes de SEO et une perte potentielle de trafic.

Pour éviter cela, assurez-vous que le fichier est correctement formaté, placé dans le répertoire racine et accessible via votredomaine.com/robots.txt. Utilisez des outils tels que Google Search Console pour tester et valider le fichier, afin de vous assurer qu’il ne bloque pas accidentellement des pages importantes et qu’il ne contient pas d’erreurs de syntaxe.

5. Utiliser le fichier robots.txt pour optimiser le budget de crawl

Pour les sites web volumineux, le blocage des sections à faible priorité (par exemple, les pages de tags, les pages d’archives) aide les moteurs de recherche à concentrer leurs efforts d’exploration sur le contenu à forte valeur ajoutée, comme les pages de produits, les pages de services ou les articles de blog. En réduisant le nombre de pages inutiles explorées, vous vous assurez que les moteurs de recherche consacrent plus de temps à l’indexation du contenu contribuant au classement SEO.

Par exemple, si un site web contient des milliers de pages d’archives qui n’apportent pas de valeur unique, le fait de les bloquer à l’aide du fichier robots.txt peut aider les moteurs de recherche à donner la priorité à des sections plus importantes du site.

6. Ne pas utiliser le fichier robots.txt pour la protection des contenus sensibles

Utilisez plutôt des balises méta « noindex », qui indiquent explicitement aux moteurs de recherche de ne pas indexer une page, tout en autorisant les robots d’exploration à y accéder. Cela permet d’exclure certaines pages des résultats de recherche sans restreindre l’accès des utilisateurs.

Alternativement, pour les contenus plus sensibles, il est également possible de mettre en place un contrôle d’accès basé sur l’authentification, qui garantit que seuls les utilisateurs autorisés peuvent consulter la page. Cette approche empêche les robots d’indexation d’accéder à des contenus privés ou confidentiels.

Conclusion

Un fichier robots.txt bien optimisé permet aux moteurs de recherche d’explorer efficacement votre site web, améliorant ainsi le SEO et les performances du site. En effectuant régulièrement des audits et des mises à jour du fichier robots.txt, vous vous assurez qu’il reste aligné avec vos objectifs SEO. Si vous avez des doutes sur les configurations, utilisez l’outil de test robots.txt de Google Search Console pour éviter des erreurs coûteuses.

Partager cet article