JumpTop

Comment fonctionnent les robots ?

// Vous l’aurez sans doute compris, je ne vais pas faire un billet sur les robots dans le sens propre du terme, mais sur les fichiers « robots.txt » qui servent pour le référencement. Je me suis dit, allez John, faisons un petit article la dessus.







A QUOI SERT IL ?
Ce fichier va vous permettre de laisser des informations au spiders. Il vous donne la possibilité, soit d’interdire l’exploration de votre site par certains spiders ou alors d’interdire l’exploration de certaines pages.

SYNTAXE
Ce qu’il en ressort, c’est que les robots offrent une souplesse très limité niveau syntaxique, les espaces sont facultatifs, et l’utilisation des majuscules et des minuscules est sans aucune importance.
Les lignes ne peuvent commercer que par ces 3 options :
- # : il s’agit d’un commentaire, tout ce qui va suivre derrière ce caractère sera ignoré par les robots
- User-Agent : cette option peut être suivi du caractère * ou du nom explicite du robot
- Disallow : cette option peut être suivi d’un seul nom de répertoire ou de dossier

La syntaxe la plus typique ressemble à ça :

User-Agent: robot1
Disallow: /includes
Disallow: /temp

User-Agent: robot2
Disallow: /includes
Disallow: /temp

etc…….

Si vous utilisez le caractère * à la place du nom d’un robot, cela veut dire tous les robots, et si vous utilisez le caractère / à la place du nom d’un fichier, aucun fichier ne sera indexé.

REGLES GENERALES
- il ne doit y avoir qu’une seul et unique robot.txt par site, et celui-ci doit impérativement être placé à la racine du dit site
- vous pouvez créer dans ce fichier plusieurs section User-Agent si vous souhaitez imposer des règles différentes à chaque moteur
- le nom du fichier robots.txt doit être écrit en minuscule pour être compris par les spiders.
- il faut inscrire un seul nom de fichier ou de répertoire derrière chaque Disallow
- il faut impérativement transférer votre fichier en mode ASCII, car si ce n’est pas fait de cette façon, cela peut générer des problèmes

REGLES STANDARDS
- l’astérisque n’est acceptée que dans le champ User-Agent
- attention, le champ Allow n’existe pas (on interdit des dossier, on ne peut pas en autoriser)

REGLES GOOGLE
L’utilisation de ces règles google ne fonctionne que pour les spiders de chez google, et ne fonctionne pas avec tous les autres moteurs.
- l’astérisque et le dollars peuvent être utiliser dans le champ Disallow. Ils permettent de masquer tous les fichiers d’un type particulier (Disallow: /*.html$)
- le champs Allow existe et permet de créer des exceptions

UTILE
Vous pouvez télécharger le freeware LinkSpirit ici, qui va vous permettre de vérifier la syntaxe de votre fichier robots.txt en tenant compte des règles strictes.

Voila, je pense ne rien avoir oublié, si vous avez des remarques ou des questions, n’hésitez pas.






L'auteur de l'article
, Directeur Artistique, Webdesigner. Vous pouvez voir mes travaux sur mon folio, ou me suivre sur mon Twitter.



7 commentaires

  1. 1 MaigretNo Gravatar dit :

    Une erreur courante mais trés embêtante, le fichier robots.txt prend un »s » comme indiqué par Google dans l’aide ou les outils Webmasters ;)

    Bonne journée !

  2. 2 John's GraphismeNo Gravatar dit :

    @Maigret

    Merci à toi, dans la précipitation de la rédaction de l’article se matin, je n’avais pas fait attention, thanks, l’erreur est corrigée.

  3. 3 MaigretNo Gravatar dit :

    Au plaisir !

  4. 4 DaftDefNo Gravatar dit :

    C’est possible de corriger la grosse faute du titre ?
    Comment fonctionnent les robots (et non pas comment fonctionne les robots)

    merci :)

  5. 5 John's GraphismeNo Gravatar dit :

    >>DaftDef : merci pour cette grosse faute d’orthographe, et je suis encore désolé d’avoir fait celle-ci…

    John’s

  6. 6 ferratNo Gravatar dit :

    Bonjour,

    j’aimerai faire référencer mon site mais j’aimerai me fier à l’expérience des internautes.
    Je souhaiterai connaitre les bonnes agences de référencement avec qui on peut obtenir de bons résultats.
    Je suis à l’heure actuelle en pour parler avec cette agence http://www.pro-web31.com quelqu’un connait cette agence ? qu’en pensez vous.

    merci pour vos avis.

  7. 7 John's GraphismeNo Gravatar dit :

    >> ferrat : ils ont un site web qui est tres sympa, c’est vrai mais apres qu’est ce qui se cache derriere, pour ma part dans mes debut du web, je suis passé une ou deux fois par des sociétés comme celles ci, et le resultat n’a pas toujours ete super, je dirais meme que c’etait pas genial du tout, car je n’avait pas pris de grosse societe … je te dirais que c’est de prendre une agence qui va te référencer et qui a des références a montrer, mais de belles références …

    apres ce n’est que mon avis …

Aucun trackback