Ce fichier doit-être placé à la racine du site.
Le fichier robots.txt de planète du web se trouve donc : www.planeteduweb.com/robots.txt
Dans mon fichier le comportement qu’aura le spider à sa lecture sera d’aller voir le sitemap. Il s’agit d’un plan du site qui référence toutes les pages présentes et qui se régénère automatiquement à la création d’une nouvelle page.
Sur la toile une multitude de personnes disent que le spider de google aime trouver ce type de fichier et favorise le référencement. Cependant cette information n’a pas été confirmée officiellement.
Le fichier est composé de la manière suivante:
User-agent:
Disallow:
Dans User-agent vous devez mettre le nom du spider. Avec le symbole * vous vous adressez à tous les spider.
Dans Disallow: vous direz ce que vous ne voulez pas que le spider lise.
Si vous voulez dire à tous les spider de lire toutes vos données:
User-agent: *
Disallow:
Vous voulez dire à Google de ne pas lire le fichier bonjour.html
User-agent: googlebot
Disallow: /bonjour.html
Vous voulez dire à Google de ne rien prendre dans le dossier bonjour
User-agent: googlebot
Disallow: /bonjour/
Si vous voulez une liste de tous les spiders:
http://www.robotstxt.org/db.html
Malgré tout il y a encore des moteurs de recherche qui n’utilisent pas cette méthode.
Pas de commentaire »
Pas encore de commentaire.
Flux RSS des commentaires de cet article. Adresse web de rétrolien





