Derniers articles

Robots.txt : quel rôle joue-t-il pour votre SEO ?

Pour ce deuxième numéro des dossiers SEO, j’ai décidé de vous parler du Robots.txt, un document parfois sous-estimé et donc sous-exploité par les web-entrepreneurs. Si à première vue ce document n’est pas très sexy à regarder, il reste néanmoins incontournable pour le bien-être de votre site (et par conséquent, votre bien-être aussi).

Inutile de vous rappeler que la base du référencement, c’est l’exploration et l’indexation de contenu. Votre site internet contient un certain nombre de pages, plus ou moins privées et plus ou moins utiles dont il est possible d’interdire l’accès aux robots. Et là, vous allez me dire : si l’objectif du référencement, c’est d’indexer des pages, pourquoi en interdire certaines ? Est-ce que la restriction d’un répertoire impacte positivement ou négativement votre stratégie SEO ?

Tentons d’apporter quelques éléments de réponse.

Qu’est-ce que le Robots.txt ? Quel est son rôle ?

Les explorateurs (robots) envoyés par les moteurs de recherche vont tenter d’indexer le plus d’informations possible présentées sur votre site internet. C’est là leur rôle, je dirai même leur objectif, on n’y peut rien. Par contre, on peut en usant de commandes spécifiques autoriser ou interdire certains répertoires (dossiers) d’un site web. Il faut savoir que les spiders (robots) vont dans un premier temps, regarder votre .htaccess puis identifier la présence du robots.txt et en tenir compte avant de poursuivre l’indexation. C’est un passage obligatoire, ils sont programmés pour fonctionner ainsi.

Le Robots.txt est un fichier que vous pouvez produire au moyen de programmes comme Bloc-notes ou Notepad. Pour parfaire son exécution, ce document nécessite d’être placé à la racine de votre site internet.

Parlons maintenant de son contenu. Ce fichier inclut des lignes de commande (en gros, du texte) devant respecter le protocole: RES (Robots Exclusion Standard). Par exemple, si vous voulez mettre un texte en gras sur votre site en passant par le code source, vous allez devoir mettre des balises paires de type ou . Si par inconscience ou ignorance, vous décidiez de mettre la balise , cela ne fonctionnera pas. C’est typiquement la même chose pour le Robots.txt et son protocole. Vous devrez respecter le lexique prévu à cet effet, comme pour le langage HTML ou le CSS. Pardonnez-moi cette comparaison, mais cet exemple est selon moi, le meilleur moyen de vous expliquer le RES sans trop rentrer dans les détails. Ce fichier va donc contenir des instructions sur les répertoires que vous souhaitez autoriser ainsi que les catégories de robots que vous voulez cibler.

Pour votre information, lorsque vous créez un site web, le robots.txt est automatiquement créé (la plupart du temps). Pour vérifier son éventuelle présence, il vous suffit de taper dans la barre d’url, l’adresse suivante : www.votre-site.fr/robots.txt

Pourquoi refuser l’accès aux robots ?

Soucieux de faire en sorte que les pages de votre site web soient prises en compte par les moteurs d’indexation, il se peut dans certains cas que vous refusiez l’exploration de pages. Voici pour quelles raisons vous pourriez interdire l’accès à certains répertoires de votre site :

  • Les pages confidentielles/privées. Ce peut être un livre blanc ou un fichier .pdf contenant des instructions précises destinées à des personnes inscrites à votre site par exemple
  • Les pages dupliquées. Vous n’êtes pas à l’aise avec le canonique et souhaitez par tous les moyens, indiquer aux robots de ne pas prendre en compte une page spécifique. Attention, il est fortement recommandé d’utiliser une balise rel= »canonical » pour indiquer aux robots, la page la plus importante
  • Les pages en cours de maintenance/en travaux
  • Les pages n’ayant aucune valeur ajoutée

Quelle est la structure d’un Robots.txt ?

Je vais faire simple et vous donner des cas concrets. Il existe plusieurs moyens de désindexer un contenu.

La plupart du temps, on conseille d’utiliser le robots.txt ou une balise noindex sur les pages en question. Pour résumer, la première solution est la préférée des informaticiens, la deuxième, la préférée des flemmards (grosso modo). Trêve de plaisanteries, pour qu’il soit bien interprété, le fichier doit respecter une logique que je vais vous détailler. Voici d’abord un exemple de structure pour un site wordpress :

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Allow: /wp-content/uploads

Disallow: */trackback

Disallow: /*/feed

Disallow: /*/comments

Disallow: /cgi-bin

Disallow: /*.php$

Disallow: /*.pdf$

Disallow: /*.css$

Disallow: /*.js$

Sitemap: http://www.votre-site.com/sitemap.xml

Sitemap: http://www.votre-site.com/sitemap.xmlgz

On commence par indiquer à qui s’adresse les instructions. C’est ce qu’on appelle le « User-agent » autrement dit le robot. L’astérisque « * » qui suit signifie que les instructions qui vont suivre s’adressent à l’ensemble des robots. C’est en quelque sorte un moyen simple et rapide pour ne pas tous les citer.

Ensuite, une fois que nous avons spécifié le robot, il faut qu’on y ajoute les instructions (Allow pour indexer et Disallow pour désindexer). Voici une explication détaillée de chaque instruction :

Disallow: /wp-login.php => Désindexer la page de connexion à l’interface utilisateur WordPress

Disallow: /wp-admin => Désindexer le dossier admin qui inclut l’interface de gestion admin

Disallow: /wp-includes => Ce dossier incluant le moteur du CMS, on le désindexe dans 99,9% des cas

Disallow: /wp-content => Désindexer le dossier contenant des fichiers de personnalisation, des plugins et images

Allow: /wp-content/uploads => Comme nous avons désindexé l’ensemble du dossier /wp-content au-dessus, on y ajoute une exception pour les images qu’on souhaite autoriser avec la fonction « Allow: »

Disallow: */trackback => Bloquer les pings et trackbacks

Disallow: /*/feed => Bloquer les flux RSS

Disallow: /*/comments => Bloquer tous les commentaires

Disallow: /cgi-bin => S’agissant d’un répertoire sensible du serveur, on préfère le bloquer par sécurité

Disallow: /*.php$ => Désindexer tout ce qui se termine par .php. Le symbole « $ » indique que c’est la fin de l’url

Disallow: /*.pdf$ => Désindexer tout ce qui se termine par .pdf

Disallow: /*.css$ => Désindexer tout ce qui se termine par .css

Disallow: /*.js$ => Désindexer tout ce qui se termine par .js

Une fois que vous avez indiqué vos consignes, vous pouvez spécifier l’adresse de votre sitemap (compressé et non compressé) sous cette forme :

Sitemap: http://www.votre-site.com/sitemap.xml

Sitemap: http://www.votre-site.com/sitemap.xmlgz

Indiquer l’adresse du sitemap n’est pas une obligation mais reste fortement conseillé pour automatiser la récupération de votre sitemap et vous éviter d’avoir à le faire dans les outils réservés aux webmasters.

Vous savez désormais lire un fichier robots.txt ! Attention, je vous déconseille de réutiliser à l’identique le contenu d’un robots.txt trouvé sur internet, et de l’appliquer tel quel à votre propre site. En effet, certains sites ont leurs propres spécificités (parfois cachées) qui peuvent nécessiter une indexation ou un blocage pour les robots, ce qui n’est pas forcément le cas pour vous. Il est préférable de récupérer les différentes commandes dans les annuaires spécialisés et les réutiliser selon vos besoins.

A noter qu’il est possible de tester le fonctionnement d’un robots.txt en utilisant l’outil de test du fichier disponible dans la Google Search Console :

outil-test-robots-txt-Digitude-2016

Je tiens à préciser que l’outil de Google analyse votre fichier en fonction de ses robots. Pour les autres agents, il faudra se rendre sur les plateformes adéquates.

Pour les personnes n’étant pas à l’aise avec la création de ce fichier, je vous invite à utiliser un générateur.

En quoi le robots.txt est-il important pour votre SEO ?

Ce fichier n’est pas indispensable au bon fonctionnement de votre site internet. Par défaut, si aucun robots.txt n’est présent à la racine de votre site, les robots se contenteront d’explorer les liens qui les intéressent. Il est néanmoins fortement conseillé d’exploiter cette ressource quand on sait le rôle important qu’elle peut jouer dans la duplication de contenu par exemple. Ne pas l’exploiter, c’est comme si vous refusiez de communiquer avec les robots des moteurs de recherche (un privilège pour certains). Il faut savoir qu’à la base, ce fichier a été conçu pour interdire l’accès aux robots à certains répertoires d’un site. Aujourd’hui, le robots.txt permet également d’indiquer aux spiders l’emplacement de votre ou vos sitemap, un petit gain de temps non négligeable.

Sachez également que certains robots (moins connus du grand public) peuvent ignorer votre robots.txt !

Quelques consignes par rapport à l’utilisation du robots.txt

  • L’astérisque est un symbole qui n’est utilisé que pour la partie « User-Agent »
  • Il est déconseillé de mettre des commentaires dans le robots.txt au risque que les spiders soient confus ou que vous oubliiez un espace ou autre
  • En parlant d’espace, évitez de commencer votre code par un vide. Commencez directement par « User-agent » au lieu de  »     User-agent »
  • Toujours mettre le « User-agent » avant les consignes Disallow / Allow
  • Cela ne sert strictement à rien d’utiliser les fonctions « Allow » dans le robots.txt, à moins d’ajouter une exception par rapport à une interdiction globale faite sur un répertoire (voir plus haut, l’exemple /wp-content)
  • Le nom de ce fichier doit impérativement s’écrire : robots.txt. Toute faute d’orthographe empêchera son fonctionnement
  • Il ne peut y avoir qu’un seul robots.txt
  • Le robots.txt n’a pas été conçu pour interdire l’accès d’un site à un internaute. Ce fichier est à destination des robots, exclusivement

En bref, je préfère vous entendre dire que vous n’avez pas de robots.txt parce que vous ignorez son existence plutôt que parce que vous trouvez cela inutile… Grrrr :)Maintenant que vous connaissez son utilité et son fonctionnement, la balle est dans votre camp. J’espère que vous avez apprécié ce dossier dédié au robots.txt.

En attendant le prochain dossier SEO, n’hésitez pas à m’envoyer vos questions ou suggestions d’article !

Robots.txt : quel rôle joue-t-il pour votre SEO ?
5 (100%) 9 votes

D'un côté fondateur de Digitude, de l'autre consultant SEM et responsable e-marketing, je voue une véritable passion pour l'univers du web ! Mon quotidien se résume à vous faire partager cette passion et mon expérience sur des sujets d'acquisition et fidélisation 3.0 !