Identifier les robots qui visitent votre site

Au cours d’une même journée, il n’est pas rare que les robots (bots, spiders) des moteurs de recherche crawlent des centaines de pages d’un même site web.

Plus vous étoffez votre site, plus vous publiez régulièrement de nouvelles pages, plus vos backlinks augmentent, plus les visites des robots seront fréquentes (en théorie).

Si par curiosité vous voulez savoir qui vient chez vous ;-) , savoir si Google et les autres moteurs de recherche prennent bien en compte vos nouvelles pages ou si encore vous voulez que votre site ne soit plus crawlé par un moteur de recherche particulier (moteur de recherche d’images par exemple, un moteur qui pompe votre bande passante etc), il est important de savoir identifier les robots envoyés par les moteurs.

Vous trouverez une trace de ces robots dans vos fichiers logs, vos outils statistiques.

Ci-dessous figure une petite liste de sites où vous trouverez le nom de milliers de robots avec le nom de leurs auteurs :

http://www.user-agents.org/

http://www.useragentstring.com/pages/All/

http://www.httpuseragent.org/list/

http://www.ref-info.com/RobotTxt/User-agent.php?smnu=2

http://www.robotstxt.org/db.html

http://www.botsvsbrowsers.com/

Une simple requête sur Google en général, vous vous permettra également rapidement d’identifier le moteur de recherche en question :-)

Libre à vous ensuite d’agir dans votre fichier robots.txt , dans votre fichier .htaccess pour les bloquer ou pas :-)

En complément de cet article, je vous conseille la lecture d’un billet du blog Seoblackout pour surveiller l’indexation de vos pages dans Google

Tags: bots, crawlers, identifier bots, identifier robots moteurs de rechercher, robots, robots moteurs de recherche, robots.txt, spiders

This entry was posted on mardi, mai 4th, 2010 at 13:42and is filed under . You can follow any responses to this entry through the RSS 2.0 feed. Both comments and pings are currently closed.

Comments are closed.

Blog référencement seulmaitreabord.info

Identifier les robots qui visitent votre site

Catégories

Blogoliste

Archives