septembre11

Optimisation : Robots.txt

Published by admin in Marketing online with Commentaires fermés sur Optimisation : Robots.txt

A quoi sert le fichier ROBOTS.TXT ? En fait, ce fichier vous permet d’avoir vos pages web indexées par la plupart des robots utilisés par les moteurs de recherche. De plus, il va aussi vous permettre d’interdire l’accès à certaines de vos pages aux moteurs de recherche.

En le plaçant à la racine de votre site internet (/home/), ce fichier donnera simplement des instructions au spider (moteur du moteur de recherche) du moteur en lui indiquant ce qu’il peut faire et ce qu’il ne doit pas faire .

Quand un robot arrive sur un site pour indexer ses pages ou simplement pour voir les pages ajoutées (par exemple, http://www.votre_site.com/), il va automatiquement rechercher le fichier « robots.txt » à la racine du site (http://www.votre_site.com/robots.txt), avant de rechercher n’importe quelle autre page.
Si ce fichier existe, il commencera par lire les instructions qu’il contient et suivra les commandes à la lettre.
Si, de surcroît, il ne trouve pas de fichier  » robots.txt  » à la racine de votre site, il commencera son travail de lecture et d’indexation de vos pages afin de les ajouter à sa base de données, considérant que rien ne lui est interdit.
Intéressant donc, si vous avez des pages à ne pas indexer, car elles seront tout de même référencée si un lien pointe vers elles.

Le style de contenu du fichier robots.txt se présente de la façon suivante (à écrire en général en minuscules) :
User-agent: *
Disallow: /cgi-bin/
Disallow: /temps/
Disallow: /prive/
Disallow: /repertoire/prive.htm

Clairement, voici la signification du contenu :
– User-agent: * signifie que l’accès est accordé à tous les robots.
– Disallow: signifie simplement que l’accès est refusé aux robots.
– Disallow: /cgi-bin/ : l’accès est refusé aux robots dans le dossier cgi-bin
– Disallow: /temps/ : l’accès est refusé aux robots dans le dossier temps
– Disallow: /prive/ : l’accès est refusé aux robots dans le dossier personnel
– Disallow: /repertoire/prive.htm : l’accès est refusé aux robots pour la page prive.htm dans le dossier repertoire

Ne jamais laisser de lignes vierges ou blanches (la touche entrée) le robot l’interprèterait comme étant la fin du fichier.
L’étoile (*) quand à elle, est acceptée uniquement dans le champ User-agent.
Comme dans le langage PHP, le signe « # » est considéré comme étant une ligne à ne pas prendre en compte et sert à inclure des commentaires.
Attention à toujours mettre le signe  » #  » au début d’une ligne pour faire un commentaire.

Comments are closed.