Sauvé par le cache des moteurs de recherche
Perte de données ? Les moteurs de recherche peuvent vous venir en aide !
Comment ?
Définissons dans un 1er temps ce qu’est une page en cache chez Google, Yahoo !, Live Search. Quelles informations trouvons nous dans la section aide de ces derniers ?
Pour Google :
« Lorsque ce dernier explore le Web, il crée une copie de chaque page examinée et la stocke dans une mémoire cache, ce qui permet de consulter cette copie à tout moment, et en particulier dans le cas où la page originale (ou Internet) serait inaccessible. Lorsque vous cliquez sur le lien « Copie cachée » d’une page Web, Google affiche celle-ci dans l’état où elle se trouvait lors de son indexation la plus récente. Par ailleurs, le contenu caché est celui sur lequel se base Google pour déterminer si une page est pertinente pour vos requêtes. »
Source Google : Pages en cache
Pour Yahoo ! :
« Une page « en cache » est un enregistrement d’une page Web pris par nos robots en parcourant un site. Ils enregistrent une copie des pages Web et la stocke sur nos serveurs. Ces versions en cache sont très utiles si les pages originales du site ne sont pas accessibles (en cas de panne de serveur, par exemple). »
Source Yahoo ! : Pages en cache
Pour Live Search :
Pas de définition dans l’aide de Live Search. Juste quelques indications en haut de page une fois sur la page en cache
« Vous trouverez ci-dessous un aperçu de la page Web telle qu’elle s’affichait sur ….. (la dernière fois que notre robot l’a examinée). Il s’agit de la version de la page utilisée pour classer vos résultats de recherche. Cette page peut avoir changé depuis sa dernière mise en cache. Pour voir ce qui peut avoir changé (sans le surlignage), visitez la page actuelle »
Pour résumer la principale fonction pour l’internaute est de donner accès à une copie d’une page de votre site si ce dernier est en rideau, en maintenance, ou que sais-je encore, bref pas accessible quoi :-). Pour le référenceur l’intérêt peut-être tout autre.
Mais pour revenir au sujet « Sauvé par le cache des moteurs de recherche« , cette fonction m’a été utile suite à une boulette sur mon blog. J’ai effacé, récemment, involontairement, tous les commentaires de mon blog.
Vous allez me dire quel boulet, quel noob celui là ! j’entends déjà d’ici les « et les sauvegardes régulières des données tu connais pas ? ».Si bien sûr, mais ma dernière ne m’a pas permis de récupérer suffisamment de données.
Du coup en me plaçant comme internaute et en faisant une requête pour lister la totalité des pages indexées par les moteurs (site:www.monsite.com sous Google) j’ai pu récupérer 95% des commentaires en mixant les pages en cache de Google, Yahoo, Live Search.
Tout ça également parce que les moteurs indexent de plus en plus de données et que les mises à jour des pages dans les bases de données des moteurs sont de plus en plus rapides.
Au final les pages en cache, si vous optimisez votre site afin que les moteurs de recherche puisse l’indexer en long en large et en travers, peuvent s’avérer un « backup en dur » non négligeable.
Alors webmasters d’un site perso ou d’entreprise à gros business, un conseil : Éviter de placer la balise
<meta name= »robots » content= »noarchive »>
(qui donne l’ordre de ne pas faire apparaître de version cache de vos pages dans les résultats de moteurs de recherche) sur les pages de votre site, cela pourra peut-être vous sauver la mise si vos sauvegardes ne sont pas assez fraiches (ne vous attendez pas non plus à trouver dans les pages en cache des infos que vous avez publié il y 10 minutes bien que… ).
novembre 26th, 2008 at 10:53
L’idée est bonne et je la note, on peut aussi se servir de http://www.archive.org qui permet en plus de retrouver du contenu plus ancien en cas de besoin.
novembre 26th, 2008 at 17:42
Il ne faut tout de même pas trop compter dessus puisque Google repasse sur le site quand il veut, surtout sur les blog quand on le ping ;-)
novembre 26th, 2008 at 19:15
Bonjour « Miniatures militaires », merci pour ton commentaire. Tu n’as pas tord, les pages en cache restent une « alternative ».
Il n’en reste pas moins que si tu mets pas 4 plombes a aller chercher le contenu des pages en cache de ton site, tu pourras récupérer de bonnes informations ;-)
novembre 30th, 2008 at 13:04
J’avais vu sur un forum un script qu’un membre avait développé suite à une perte de donnée pour scrapper le cache Google et réinjecter automatiquement dans sa BDD. Pratique…
Je me rappelle également avoir « sauvé » avec le cache google un intégrateur ayant supprimé en prod et en pré prod le contenu d’une page d’un client :D
décembre 11th, 2008 at 18:50
C’est que je me suis déjà servie des pages en cache pour récupérer des données perdues. Exemple un article supprimé par erreur. C’est bien utile.
décembre 14th, 2008 at 13:24
Et oui un petit « tips » qui m’a déjà été bien utile quand j’écrasais notamment par mégarde la liste de mes partenaires en footer que je n’avais pas pris soin de copier… :-)
mai 21st, 2009 at 18:22
Le cache est très utile, je me souviens de la fois ou les photos de Laure Manodou, notre championne de natation ont été mises sur le Web.
Rapidement il a fallu les enlever car la justice avait été saisie de l’affaire et malgré cela elles étaient encore visible grâce au cache.
juin 1st, 2009 at 17:23
Le cache est utile certe, mais dans certains cas , il faut être rapide car le cache dure pas si longtemps que cela. Tout dépend du site. Un petit site peu connu aura un cache qui peu durée plusieurs jours.