Identifier les robots qui visitent votre site

Au cours d’une même journée, il n’est pas rare que les robots (bots, spiders) des moteurs de recherche crawlent des centaines de pages d’un même site web.

Plus vous étoffez votre site, plus vous publiez régulièrement de nouvelles pages, plus vos backlinks augmentent, plus les visites des robots seront fréquentes (en théorie).

Si par curiosité vous voulez savoir qui vient chez vous ;-) , savoir si Google et les autres moteurs de recherche prennent bien en compte vos nouvelles pages ou si encore vous voulez que votre site ne soit plus crawlé par un moteur de recherche particulier (moteur de recherche d’images par exemple, un moteur qui pompe votre bande passante etc), il est important de savoir identifier les robots envoyés par les moteurs.

Vous trouverez une trace de ces robots dans vos fichiers logs, vos outils statistiques.

Ci-dessous figure une petite liste de sites où vous trouverez le nom de milliers de robots avec le nom de leurs auteurs  :

http://www.user-agents.org/

http://www.useragentstring.com/pages/All/

http://www.httpuseragent.org/list/

http://www.ref-info.com/RobotTxt/User-agent.php?smnu=2

http://www.robotstxt.org/db.html

http://www.botsvsbrowsers.com/

Une simple requête sur Google en général, vous vous permettra également rapidement d’identifier le moteur de recherche en question :-)

Libre à vous ensuite d’agir dans votre fichier robots.txt , dans votre fichier .htaccess pour les bloquer ou pas :-)

En complément de cet article, je vous conseille la lecture d’un billet du blog Seoblackout pour surveiller l’indexation de vos pages dans Google


15 Responses to “Identifier les robots qui visitent votre site”

  • Pierre-Yves from Référencement Super X Says:

    Il est important de noter qu’il est impossible de voir si le crawler Google a visité votre site à partir de Google Analytics; En effet, cet outil n’affiche pas ce user-agent particulier.

    La seule façon de voir lorsque Google crawl vos page est soit d’utiliser les outils mentionnés par Dan (Merci Dan!), soit d’utiliser un outil d’analyse des statistiques qui utilise le fichier log de votre serveur HTTP, tel que Webalizer ou autre.

  • Steph Says:

    Ces quelques outils sont intéressants effectivement pour connaître cette information. Comme tu le précises la recherche Google peut suffir pour savoir si un robot est passé sur une page, mais n’offre pas de détails sur ce passage.

  • deefoo from urbanears plattan Says:

    Merci Dan je vais pouvoir savoir a qeulle frequence et quand viennent les bots sur mon site.

  • RDD Says:

    Hehe, ca me rappelle un outil que j’avais code en BASH pour avoir un rapport quotidien sur les crawl des 3 principaux spiders (pour un dedie sous linux).
    Du coup j’ai ete obliger d’ecrire un petit article dessus : http://www.renardudezert.com/2010/05/05/rdd-bottracker

  • Mat from petites annonces Says:

    Je ne prêtai aucune intention à ces robots : je viens d’utiliser l’un des outils de la liste et il s’avère que le MSNbot est très très gourmand ! On peut ralentir l’activité d’un robot ?

  • Le-Juge from Search Engine Optimization Houston Says:

    A préciser aussi que de nombreux CMS en ligne (squarespace notamment) précise le nombre de passage des robots dans leurs stats – c’est cool.
    Sinon Merci a Dan pour la petite liste de tool

  • Mamzelle Print Says:

    Merci, je ne pensais pas qu’il y avait autant de robots qui tournaient. Connaitre le passage des BOTS sert-il aussi à optimiser son SEO ou cela sert il seulement pour le coté technique d’un website ?

  • Sushie from Clipboard Says:

    Connaître le passage d’un robot sert juste pour le côté technique, je pense pas que ça compte pour le SEO, juste que si le robot passe, ton nouveau article pourra être en ligne plus vite.
    J’ai raison Dan? XD

  • Dan Says:

    Coté SEO cela peut montrer la bonne santé d’un site si les crawls sont très fréquents. Cela te permet de voir également si ton arborescence est bonne, que tes nouvelles pages sont bien visitées. Plus vite un robot visite en effet une page, plus vite il va la placer dans son index et la publier (si elle ne lui parait pas louche :-D)

  • Samuel Hounkpe from motercalo Says:

    Personnellement je n’utilise pas ce genre de site, mais je vais y penser à l’avenir…
    Je suis sans doute trop obnubilé par google et ma place dans les SERPs! :-(

  • Farley Says:

    Il est important de noter qu’il est impossible de voir si le crawler Google a visité votre site à partir de Google Analytics; En effet, cet outil n’affiche pas ce user-agent particulier.
    +1

  • cedric from outils rss Says:

    Ces outils peuvent être un bon baromètre pour connaître l’intérêt que portent les moteur de recherche aux sites web. Merci pour ces liens.

  • Weborganique from Fenêtre Alsace Says:

    Toujours bon de récolter le maximum d’infos du moment qu’elle reste utile sans être gourmand en temps. Ce qui serait intéressant c’est de connaître les personnes qui visitent votre site avec « refcontrol » activé, et si en plus de cela il active « reloadevery », je ne vous raconte pas les stats bidon que ça peut générer.

  • Michel from grossiste pâtisserie Says:

    Concernant les spiders ayant un objectif négatif (scraping d’email, DOS,…) le fichier robots.txt ne suffira pas car la plupart modifie l’entête HTTP pour se faire passer pour un navigateur…