En règle générale, il est du devoir des ad­mi­nis­tra­teurs de sites Internet pro­fes­sion­nels de tra­vail­ler au bon ré­fé­ren­ce­ment de leur projet dans les moteurs de recherche. Une des con­di­tions sine qua non est que les robots d’in­dexa­tion puissent lire toutes les URLs pour qu’ils les adoptent par la suite. Par ailleurs, il est important de veiller à ce que les moteurs de recherche ne puissent pas, parfois, explorer certains sites dans leur totalité. En effet, les capacités de ces pro­grammes sont limitées et même Google n’est pas en mesure ni de créer et ni de sau­ve­gar­der des contenus Web à l’infini. Au lieu de cela, chaque nom de domaine est lié à un budget pour un ré­fé­ren­ce­ment naturel. Cette somme indique le nombre d’URLs qui peuvent être indexés et lus tous les jours. Il est conseillé aux ad­mi­nis­tra­teurs de sites Internet d’envergure de procéder ici avec stratégie en signalant, tout d’abord, aux robots de recherche quelles sont les parties de leurs sites Internet qui doivent être indexées, et quelles sont celles à ignorer. Les outils im­por­tants dans le cadre d’un ré­fé­ren­ce­ment naturel sont les in­for­ma­tions sur les robots dans les balises méta, les balises ca­no­niques et bien entendu les fichiers robots.txt dont il est question dans cet article.

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un fichier de texte pur qui est placé à la racine d’un nom de domaine. Il permet aux ad­mi­nis­tra­teurs de contrôler l’accès des moteurs de recherche à des sites Internet. Les in­for­ma­tions contenues dans un fichier robots.txt font référence à l’ensemble de l’ar­bo­res­cence d’un ré­per­toire. C’est ainsi que cet outil d’in­dexa­tion se dis­tin­guent des fichiers des robots méta et de leurs re­di­rec­tions qui ne valent que pour un document HTML unique. L’important est que le fichier robots.txt soit compris des moteurs de recherche comme étant une ins­truc­tion à suivre. La plupart des moteurs de recherche indiquent qu’ils suivent ces lignes di­rec­trices. Par ailleurs, il est possible de ne pas pouvoir accéder à une partie par­ti­cu­lière d’un site seulement si celle-ci est protégée par un mot de passe.

Créer un fichier robots.txt

Pour que des robots puissent accéder à des ins­truc­tions d’in­dexa­tion in­di­vi­duelles, il faut qu’un fichier texte pur soit nommé exac­te­ment robots.txt et qu’il se trouve à la racine d’un nom de domaine. S’il faut que des ins­truc­tions d’in­dexa­tion soient définies pour le domaine exemple.fr, il convient alors que le fichier robots.txt se trouve dans le même ré­per­toire soit www.exemple.fr. Un tel fichier est té­lé­char­geable sur Internet sous l’adresse www.exemple.fr/robots.txt. Si le modèle d’hé­ber­ge­ment choisi ne fournit pas d’accès au ré­per­toire racine du serveur, mais seulement à un sous-dossier (tel que www.exemple.fr/uti­li­sa­teur/), un ré­fé­ren­ce­ment naturel au moyen du fichier robots.txt est alors im­pos­sible. Les ad­mi­nis­tra­teurs de sites Internet qui créent des fichiers robots.txt doivent avoir accès à un éditeur de texte pur tel que vi (Linux) voire notepad.exe (Windows) et s’assurer via transfert FTP que le fichier est transféré dans le mode ASCII. Il est possible de créer des robots.txt grâce à des gé­né­ra­teurs présents sur la Toile. Etant donné que des erreurs de syntaxe peuvent avoir des effets dé­vas­ta­teurs sur l’in­dexa­tion d’un projet Web, il convient de tester le fichier texte avant de la té­lé­char­ger. Google dispose pour cela d’un outil efficace dans le cadre de son programme Search Console.

Cons­truc­tion d’un fichier robots.txt

Tout fichier robots.txt contient des en­re­gis­tre­ments composés de deux parties. La première commence par le mot-clé User-agent et s’adresse à un robot d’in­dexa­tion qui figure dans la deuxième partie. Ces ins­truc­tions con­sis­tent en général à empêcher l’ex­plo­ra­tion grâce au premier mot-clé soit Disallow. Par la suite, un ré­per­toire voire un ou plusieurs fichiers sont cités. Voici le schéma de base à respecter :

User-agent: Googlebot
Disallow: /temp/ 
Disallow: /news.html
Disallow: /print

Dans cet exemple, le fichier robots.txt est valable uni­que­ment pour le robot d’in­dexa­tion dont le nom est Googlebot, soit l’agent uti­li­sa­teur de Google. Il interdit la lecture du ré­per­toire /temp/ ainsi que celle du fichier news.html. Par ailleurs, tous les fichiers ainsi que les ré­per­toires dont les chemins com­men­cent par print sont bloqués. Il convient ici de faire attention à bien dis­tin­guer la syntaxe de Disallow: /temp/ et de Disallow: /print en omettant un slash à la fin.

Insérer des com­men­taires

Il est possible d’insérer des com­men­taires dans des fichiers robots.txt. Ces derniers peuvent être ajoutés n’importe où grâce à un croi­sil­lon (#).

# robots.txt pour http://www.exemple.fr
User-agent: Googlebot
Disallow: /temp/ # Le répertoire contient des fichiers temporaires 
Disallow: /print/ # Le répertoire contient des impressions de pages 
Disallow: /news.html # Le fichier change tous les jours

S’adresser à plusieurs agents uti­li­sa­teurs

Si plusieurs moteurs de recherche sont impliqués, le fichier robots.txt a la pos­si­bi­lité de bloquer plusieurs parties d’un site Internet. Par ailleurs, une ligne vide est tout le temps ajoutée devant les agents uti­li­sa­teurs.

# robots.txt pour http://www.exemple.fr
    User-agent: Googlebot
    Disallow: /temp/ 
     
    User-agent: Bingbot 
    Disallow: /print/

Alors que Google interdit le robot d’in­dexa­tion d’explorer dans le ré­per­toire /temp/, Bingbot empêche également l’in­dexa­tion du dossier /print/.

S’adresser à tous les agents uti­li­sa­teurs

Il convient de mettre un petit as­té­risque (*) pour que tous les robots d’in­dexa­tion soient interdits d’accès à certains ré­per­toires ou fichiers.

# robots.txt pour http://www.exemple.fr
User-agent: *
Disallow: /temp/
Disallow: /print/
Disallow: /pictures/

Le fichier robots.txt bloque les ré­per­toires /temp/, /print/ et /pictures/ pour tous les moteurs de recherche.

Exclure tous les ré­per­toires de l’in­dexa­tion

Dans le cas où les agents uti­li­sa­teurs se voient refuser l’accès à tout un site Internet, un simple slash (/) suffit après le mot-clé Disallow.

# robots.txt pour http://www.exemple.fr
    User-agent: *
    Disallow: /

Dans ce cas, tous les robots d’in­dexa­tion ont pour ins­truc­tion d’ignorer en­tiè­re­ment le site. Un tel fichier robots.txt s’applique par exemple dans le cadre de projets Web qui se trouvent encore dans leur phase de test.

Autoriser l’in­dexa­tion de tous les ré­per­toires

Si un robot a la pos­si­bi­lité d’explorer et d’indexer en­tiè­re­ment un site Internet, les ad­mi­nis­tra­teurs de sites Internet peuvent le signaler en utilisant le mot-clé Disallow sans slash :

# robots.txt pour http://www.exemple.fr
User-agent: Googlebot
Disallow:

Si un fichier robots.txt contient un Disallow sans slash, le site entier est alors ac­ces­sible au robot d’in­dexa­tion défini par l’agent uti­li­sa­teur.

Tableau 1: fonc­tion­na­li­tés de base du fichier robots.txt
Consignes Exemples Func­tion­na­li­tés
User-agent: User-agent: Googlebot S’adresse à un robot d’in­dexa­tion en par­ti­cu­liers
User-agent: * S’adresse à tous les robots d’in­dexa­tion
Disallow: Disallow: Le site entier peut être exploré
Disallow: / Le site entier est bloqué
Disallow: /ré­per­toire/ Un ré­per­toire spé­ci­fique est bloqué
Disallow: /fichier.html Un fichier par­ti­cu­lier est bloqué

D’autres fonc­tion­na­li­tés

Au-delà de ces fonc­tion­na­li­tés quasi standards, certains moteurs de recherche prennent également en charge des pa­ra­mètres pour préciser des in­for­ma­tions dans le fichier robots.txt. Les fonc­tion­na­li­tés qui suivent sont dis­po­nibles sur l’espace as­sis­tance de Google. Elles pro­vien­nent d’un accord entre Google et Yahoo.

Définir les ex­cep­tions

En dehors de Disallow, Google prend en charge un autre mot-clé, soit Allow, dans le fichier robots.txt qui permet de définir des règles d’exception pour les ré­per­toires bloqués.

# robots.txt pour http://www.exemple.fr
User-agent: Googlebot
Disallow: /news/ 
Allow: /news/index.html

Le mot-clé Allow permet de partager le fichier "http://www.exemple.fr/news/index.html" avec Googlebot bien que le ré­per­toire parent /news/ ne soit pas bloqué.

Bloquer des fichiers avec des ex­ten­sions spé­ci­fiques

Les ad­mi­nis­tra­teurs de sites Web, qui sou­hai­tent interdire à Googlebot la lecture de fichiers com­por­tant des ex­ten­sions spé­ci­fiques, peuvent utiliser des en­re­gis­tre­ments tels que dans l’exemple suivant :

# robots.txt pour http://www.exemple.fr
User-agent: Googlebot
Disallow: /*.pdf$

Le mot-clé Disallow fait référence à tous les fichiers com­por­tant l’extension .pdf et les protège de l’accès de Googlebot. L’as­té­risque (*) sert de mé­ta­ca­rac­tère au nom du fichier précédant l’extension. L’entrée avec le signe de dollar ($) à la fin de la ligne signifie l’exclusion.

Signaler un robot d’in­dexa­tion sur un sitemap

Hormis le pilotage du com­por­te­ment d’in­dexa­tion, le fichier robots.txt permet également aux robots de se signaler sur le sitemap (plan de site) d’un projet Web. Voilà comment un fichier robots.txt qui comporte un renvoi à un sitemap se constitue :

# robots.txt pour http://www.exemple.fr
User-agent: *
Disallow: /temp/
Sitemap: http://www.exemple.fr/sitemap.xml
Tableau 2: autres fonc­tion­na­li­tés du fichier robots.txt
Ins­truc­tions Exemples fon­ci­ton­na­li­tés
Allow: Allow: /exemple.html Le fichier indiqué voire le ré­per­toire sont autorisés à être indexé.
Disallow: /*…$ Disallow: /*.jpg$ Les fichiers com­por­tant des ex­ten­sions par­ti­cu­lières sont bloqués.
Sitemap: Sitemap: http://www.exemple.fr/sitemap.xml Le sitemap XML se trouve sous l’adresse indiquée.
Aller au menu principal