Mai 4 2010

Identifier les robots qui visitent votre site

Au cours d’une même journée, il n’est pas rare que les robots (bots, spiders) des moteurs de recherche crawlent des centaines de pages d’un même site web.

Plus vous étoffez votre site, plus vous publiez régulièrement de nouvelles pages, plus vos backlinks augmentent, plus les visites des robots seront fréquentes (en théorie).

Si par curiosité vous voulez savoir qui vient chez vous ;-) , savoir si Cliquez-ici pour Lire la suite du billet Identifier les robots qui visitent votre site


Nov 10 2008

Bien construire son fichier robots.txt

Le fichier robots.txt est un fichier au format texte, placé à la racine d’un site web

Interrogé par les robots des moteurs de recherche, il leur donne les instructions à faire ou ne pas faire sur votre site web.

Il est donc important de bien guider les robots pour qu’ils visitent les pages que vous les autorisez à voir, et qu’ils n’aillent pas voir les pages que seul vous voulez voir.

Pour autoriser les robots des moteurs de recherche à indexer votre site :

Insérer ces 2 lignes dans votre fichier robots.txt :

User-agent: *
Disallow:

User-agent: * signifie que vous donnez l’accès à tous les robots des moteurs de recherche.

Disallow: indique les pages, repertoire à bloquer. Ici rien est à bloquer comme rien est spécifié.

Un fichier robots.txt vide ou inexistant aura une conséquence identique.

Pour interdire totalement ou partiellement l’accès à votre site web :

Interdire à tous les robots de visiter votre site :

Insérer ces 2 lignes :

User-agent: *
Disallow: /

Interdire aux robots de visiter une page :

User-agent: *
Disallow: toto.html

Interdire aux robots de visiter le contenu d’un répertoire :

User-agent: *
Disallow: /perso

Pour interdire à certains et autoriser à d’autres :

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:

Dans ce cas le robot de Google à tous les droits de visite sur votre site et les autres ne peuvent rien voir.

Localisation du fichier sitemap.xml :

Pour faire connaître la localisation de votre fichier sitemap vous pouvez rajouter cette ligne dans votre fichier robots.txt :

site: http://www.votresite.com/sitemap.xml

+ d’infos sur le fichier sitemap.xml ici

Si vous ne voulez pas vous prendre la tête avec ce fichier important ou avait peur de vous louper,  vous pouvez utiliser des générateurs de robots.txt en ligne. En voici une petite liste :

http://outils.enaty.com/outils/generateur-robots.php

http://www.mcanerin.com/en/search-engine/robots-txt.asp

http://www.seochat.com/seo-tools/robots-generator/

et bien d’autres…

Même Google propose un outil de génération de robots.txt via GWT (https://www.google.com/webmasters/tools/)

Pour finir, vous pouvez doubler vos interdictions, par le biais de la balise <meta name= »robots » content= »noindex, nofollow »> par exemple dans les pages que vous ne souhaitez pas voir apparaitre.