Bien construire son fichier robots.txt
Le fichier robots.txt est un fichier au format texte, placé à la racine d’un site web
Interrogé par les robots des moteurs de recherche, il leur donne les instructions à faire ou ne pas faire sur votre site web.
Il est donc important de bien guider les robots pour qu’ils visitent les pages que vous les autorisez à voir, et qu’ils n’aillent pas voir les pages que seul vous voulez voir.
Pour autoriser les robots des moteurs de recherche à indexer votre site :
Insérer ces 2 lignes dans votre fichier robots.txt :
User-agent: *
Disallow:
User-agent: * signifie que vous donnez l’accès à tous les robots des moteurs de recherche.
Disallow: indique les pages, repertoire à bloquer. Ici rien est à bloquer comme rien est spécifié.
Un fichier robots.txt vide ou inexistant aura une conséquence identique.
Pour interdire totalement ou partiellement l’accès à votre site web :
Interdire à tous les robots de visiter votre site :
Insérer ces 2 lignes :
User-agent: *
Disallow: /
Interdire aux robots de visiter une page :
User-agent: *
Disallow: toto.html
Interdire aux robots de visiter le contenu d’un répertoire :
User-agent: *
Disallow: /perso
Pour interdire à certains et autoriser à d’autres :
User-agent: *
Disallow: /
User-agent: googlebot
Disallow:
Dans ce cas le robot de Google à tous les droits de visite sur votre site et les autres ne peuvent rien voir.
Localisation du fichier sitemap.xml :
Pour faire connaître la localisation de votre fichier sitemap vous pouvez rajouter cette ligne dans votre fichier robots.txt :
site: http://www.votresite.com/sitemap.xml
+ d’infos sur le fichier sitemap.xml ici
Si vous ne voulez pas vous prendre la tête avec ce fichier important ou avait peur de vous louper, vous pouvez utiliser des générateurs de robots.txt en ligne. En voici une petite liste :
http://outils.enaty.com/outils/generateur-robots.php
http://www.mcanerin.com/en/search-engine/robots-txt.asp
http://www.seochat.com/seo-tools/robots-generator/
et bien d’autres…
Même Google propose un outil de génération de robots.txt via GWT (https://www.google.com/webmasters/tools/)
Pour finir, vous pouvez doubler vos interdictions, par le biais de la balise <meta name= »robots » content= »noindex, nofollow »> par exemple dans les pages que vous ne souhaitez pas voir apparaitre.
novembre 10th, 2008 at 12:06
petite précision :
Disallow: /bla
bloque aussi toutes les URLs qui commencent par “bla”
“blabla” ou “bla.html” seront bloqués également…
novembre 10th, 2008 at 12:54
Pour faire connaître la localisation de votre fichier sitemap vous pouvez rajouter cette ligne dans votre fichier robots.txt :
site: http://www.votresite.com/sitemap.xml”
–> c’est un fichier trés important et c’est tout aussi important dans le préciser dans le robots.txt, surtout si vous n’utilisez pas l’interface Webmaster Tool de Google ;)
janvier 2nd, 2009 at 13:23
Egalement garder en tête qu’en spécifiant une directive pour tous les Robots suivie d’une directive spécifique pour Googlebot, ce dernier ignorera la première !
par exemple:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /dossier-special-google/
Googlebot ne suit que la directive la plus spécifique.
février 1st, 2009 at 12:52
Lebosstom fait bien de le souligner, cette petite astuce est fort pratique, je ne pourrais m’en passer :)
janvier 31st, 2010 at 14:03
C’est toujours intéressant de rappeler les directives du robots.txt
Même des sites avec un trafic fort important arrive à désindexer l’entièreté du site. ça fait peur ^^
juillet 20th, 2010 at 17:16
Salut,
Parait-il pour bien référencer son site et empêcher le duplicate content , il faut disallow les catégories.
J’ai donc fait cela. Mais si je veux que google et autres moteurs m’index exceptionnellement une catégorie tout en ignorant les autres est ce que ça marche :
Disallow: /category/*/*
allow: la catégorie en question?
? j’espère avoir été le moins flou possible
juillet 21st, 2010 at 8:34
Re-
j’ai finalement décidé d’enlever le disallow pour les catégorie
vu que la taille de texte présent est peu importante. Normalement il n’y aura de duplicate contant :/