Indexation par les moteurs de recherche: le fichier "robots.txt"

Cela fait quelques temps que j’entends parler d’un fichier nommé “robots.txt“. Si je voyais bien un rapport avec les moteurs de recherche, je n’avais jamais vraiment compris son utilité. C’est maintenant réparé avec la rédaction de ce billet.

Les moteurs de recherche passent leur temps à scruter le web (et donc votre site web) pour établir leur indexation. Pour ce faire, ils utilisent des robots nommés “spider” (araignée) ou encore “crawler”, dont le rôle est de chercher en premier lieu un fichier qui doit se trouver à la racine d’un site. Ce fichier est le fameux fichier “robots.txt” qui permet d’indiquer aux moteurs ou autres outils de recherche quelles parties de votre site ne doivent pas être indexées. En quelque sorte, il définit les droits d’accès de votre site aux robots. Ce simple fichier texte respecte une syntaxe propre et doit être présent à la racine de votre site Web (et uniquement là!). Si ce fichier n’existe pas, les robots visiteront et indexeront éventuellement toutes les pages de votre site.

Ce fichier contient au minimum les deux lignes suivantes (pour en savoir plus sur les subtilités de cette syntaxe, je vous conseille la lecture de la page “LE FICHIER robots.txt“):

User-agent: qui indique le nom du moteur auquel on désire indiquer une instruction
Disallow: qui va permettre d'interdire l'indexation d'un répertoire (et de ses sous-répertoires) ou d'un fichier

Dans le cas de mon site web (http://www.davidtouvet.com), j’ai créé une sous-partie destinée à effectuer des tests divers. Il est inutile que cette partie soit indexée. Mon fichier “robots.txt” ressemble donc à cela:

# définit l'interdiction de visiter la section tests
User-agent: *
Disallow: /tests/

Ainsi, j’interdis à tous les robots (= *) d’indexer le répertoire (et tous les sous-répertoires) “tests”. Facile non :smile:. Pour vérifier tout cela, j’ai utilisé un vérificateur de syntaxe du fichier “robots.txt”.

En complément de ce fichier “robots.txt”, il faudra veiller à renseigner des balises méta:

  1. <meta name="robots" content="X, Y">: “X” contiendra soit la valeur “index” (les robots indexeront la page) ou “noindex”; “Y” contiendra soit la valeur “follow” (les robots suivront tous les liens qu’ils trouveront sur la page) ou “nofollow”
  2. <meta name="revisit-after" content="XX days">: “XX” indiquera le nombre de jours avant qu’un robot ne revienne visiter cette page
  3. <meta name="expires" content="never">: “never” indique la durée de vie de votre page; on peut spécifier une date, en utilisant ce format : “Sun, 07 Aug 2005 08:21:57 GMT”
Tags: , , , ,