// Vous l’aurez sans doute compris, je ne vais pas faire un billet sur les robots dans le sens propre du terme, mais sur les fichiers “robots.txt” qui servent pour le référencement. Je me suis dit, allez John, faisons un petit article la dessus.



A QUOI SERT IL ?
Ce fichier va vous permettre de laisser des informations au spiders. Il vous donne la possibilité, soit d’interdire l’exploration de votre site par certains spiders ou alors d’interdire l’exploration de certaines pages.

SYNTAXE
Ce qu’il en ressort, c’est que les robots offrent une souplesse très limité niveau syntaxique, les espaces sont facultatifs, et l’utilisation des majuscules et des minuscules est sans aucune importance.
Les lignes ne peuvent commercer que par ces 3 options :
– # : il s’agit d’un commentaire, tout ce qui va suivre derrière ce caractère sera ignoré par les robots
– User-Agent : cette option peut être suivi du caractère * ou du nom explicite du robot
– Disallow : cette option peut être suivi d’un seul nom de répertoire ou de dossier

La syntaxe la plus typique ressemble à ça :

User-Agent: robot1
Disallow: /includes
Disallow: /temp

User-Agent: robot2
Disallow: /includes
Disallow: /temp

etc…….

Si vous utilisez le caractère * à la place du nom d’un robot, cela veut dire tous les robots, et si vous utilisez le caractère / à la place du nom d’un fichier, aucun fichier ne sera indexé.

REGLES GENERALES
– il ne doit y avoir qu’une seul et unique robot.txt par site, et celui-ci doit impérativement être placé à la racine du dit site
– vous pouvez créer dans ce fichier plusieurs section User-Agent si vous souhaitez imposer des règles différentes à chaque moteur
– le nom du fichier robots.txt doit être écrit en minuscule pour être compris par les spiders.
– il faut inscrire un seul nom de fichier ou de répertoire derrière chaque Disallow
– il faut impérativement transférer votre fichier en mode ASCII, car si ce n’est pas fait de cette façon, cela peut générer des problèmes

REGLES STANDARDS
– l’astérisque n’est acceptée que dans le champ User-Agent
– attention, le champ Allow n’existe pas (on interdit des dossier, on ne peut pas en autoriser)

REGLES GOOGLE
L’utilisation de ces règles google ne fonctionne que pour les spiders de chez google, et ne fonctionne pas avec tous les autres moteurs.
– l’astérisque et le dollars peuvent être utiliser dans le champ Disallow. Ils permettent de masquer tous les fichiers d’un type particulier (Disallow: /*.html$)
– le champs Allow existe et permet de créer des exceptions

UTILE
Vous pouvez télécharger le freeware LinkSpirit ici, qui va vous permettre de vérifier la syntaxe de votre fichier robots.txt en tenant compte des règles strictes.

Voila, je pense ne rien avoir oublié, si vous avez des remarques ou des questions, n’hésitez pas.