Nov 26 2008

Sauvé par le cache des moteurs de recherche

Perte de données ? Les moteurs de recherche peuvent vous venir en aide !

Comment ?

Définissons dans un 1er temps ce qu’est une page en cache chez Google, Yahoo !, Live Search. Quelles informations trouvons nous dans la section aide de ces derniers ?

Pour Google :

« Lorsque ce dernier explore le Web, il crée une copie de chaque page examinée et la stocke dans une mémoire cache, ce qui permet de consulter cette copie à tout moment, et en particulier dans le cas où la page originale (ou Internet) serait inaccessible. Lorsque vous cliquez sur le lien « Copie cachée » d’une page Web, Google affiche celle-ci dans l’état où elle se trouvait lors de son indexation la plus récente. Par ailleurs, le contenu caché est celui sur lequel se base Google pour déterminer si une page est pertinente pour vos requêtes. »

Source Google : Pages en cache

Pour Yahoo ! :

« Une page « en cache » est un enregistrement d’une page Web pris par nos robots en parcourant un site. Ils enregistrent une copie des pages Web et la stocke sur nos serveurs. Ces versions en cache sont très utiles si les pages originales du site ne sont pas accessibles (en cas de panne de serveur, par exemple). »

Source Yahoo ! : Pages en cache

Pour Live Search :

Pas de définition dans l’aide de Live Search. Juste quelques indications en haut de page une fois sur la page en cache

« Vous trouverez ci-dessous un aperçu de la page Web telle qu’elle s’affichait sur ….. (la dernière fois que notre robot l’a examinée). Il s’agit de la version de la page utilisée pour classer vos résultats de recherche. Cette page peut avoir changé depuis sa dernière mise en cache. Pour voir ce qui peut avoir changé (sans le surlignage), visitez la page actuelle »

Pour résumer la principale fonction pour l’internaute est de donner accès à une copie d’une page de votre site si ce dernier est en rideau, en maintenance, ou que sais-je encore, bref pas accessible quoi :-). Pour le référenceur l’intérêt peut-être tout autre.

Mais pour revenir au sujet « Sauvé par le cache des moteurs de recherche« , cette fonction m’a été utile suite à une boulette sur mon blog. J’ai effacé, récemment, involontairement, tous les commentaires de mon blog.

Vous allez me dire quel boulet, quel noob celui là ! j’entends déjà d’ici les « et les sauvegardes régulières des données tu connais pas ? ».Si bien sûr, mais ma dernière ne m’a pas permis de récupérer suffisamment de données.

Du coup en me plaçant comme internaute et en faisant une requête pour lister la totalité des pages indexées par les moteurs (site:www.monsite.com sous Google)  j’ai pu récupérer 95% des commentaires en mixant les pages en cache de Google, Yahoo, Live Search.

Tout ça également parce que les moteurs indexent de plus en plus de données et que les mises à jour des pages dans les bases de données des moteurs sont de plus en plus rapides.

Au final les pages en cache, si vous optimisez votre site afin que les moteurs de recherche puisse l’indexer en long en large et en travers, peuvent s’avérer un « backup en dur » non négligeable.

Alors webmasters d’un site perso ou d’entreprise à gros business, un conseil : Éviter de placer la balise

<meta name= »robots » content= »noarchive »>

(qui donne l’ordre de ne pas faire apparaître de version cache de vos pages dans les résultats de moteurs de recherche) sur les pages de votre site, cela pourra peut-être vous sauver la mise si vos sauvegardes ne sont pas assez fraiches (ne vous attendez pas non plus à trouver dans les pages en cache des infos que vous avez publié il y 10 minutes bien que… ).