Sauvé par le cache des moteurs de recherche

Perte de données ? Les moteurs de recherche peuvent vous venir en aide !

Comment ?

Définissons dans un 1er temps ce qu’est une page en cache chez Google, Yahoo !, Live Search. Quelles informations trouvons nous dans la section aide de ces derniers ?

Pour Google :

« Lorsque ce dernier explore le Web, il crée une copie de chaque page examinée et la stocke dans une mémoire cache, ce qui permet de consulter cette copie à tout moment, et en particulier dans le cas où la page originale (ou Internet) serait inaccessible. Lorsque vous cliquez sur le lien « Copie cachée » d’une page Web, Google affiche celle-ci dans l’état où elle se trouvait lors de son indexation la plus récente. Par ailleurs, le contenu caché est celui sur lequel se base Google pour déterminer si une page est pertinente pour vos requêtes. »

Source Google : Pages en cache

Pour Yahoo ! :

« Une page « en cache » est un enregistrement d’une page Web pris par nos robots en parcourant un site. Ils enregistrent une copie des pages Web et la stocke sur nos serveurs. Ces versions en cache sont très utiles si les pages originales du site ne sont pas accessibles (en cas de panne de serveur, par exemple). »

Source Yahoo ! : Pages en cache

Pour Live Search :

Pas de définition dans l’aide de Live Search. Juste quelques indications en haut de page une fois sur la page en cache

« Vous trouverez ci-dessous un aperçu de la page Web telle qu’elle s’affichait sur ….. (la dernière fois que notre robot l’a examinée). Il s’agit de la version de la page utilisée pour classer vos résultats de recherche. Cette page peut avoir changé depuis sa dernière mise en cache. Pour voir ce qui peut avoir changé (sans le surlignage), visitez la page actuelle »

Pour résumer la principale fonction pour l’internaute est de donner accès à une copie d’une page de votre site si ce dernier est en rideau, en maintenance, ou que sais-je encore, bref pas accessible quoi :-). Pour le référenceur l’intérêt peut-être tout autre.

Mais pour revenir au sujet « Sauvé par le cache des moteurs de recherche« , cette fonction m’a été utile suite à une boulette sur mon blog. J’ai effacé, récemment, involontairement, tous les commentaires de mon blog.

Vous allez me dire quel boulet, quel noob celui là ! j’entends déjà d’ici les « et les sauvegardes régulières des données tu connais pas ? ».Si bien sûr, mais ma dernière ne m’a pas permis de récupérer suffisamment de données.

Du coup en me plaçant comme internaute et en faisant une requête pour lister la totalité des pages indexées par les moteurs (site:www.monsite.com sous Google)  j’ai pu récupérer 95% des commentaires en mixant les pages en cache de Google, Yahoo, Live Search.

Tout ça également parce que les moteurs indexent de plus en plus de données et que les mises à jour des pages dans les bases de données des moteurs sont de plus en plus rapides.

Au final les pages en cache, si vous optimisez votre site afin que les moteurs de recherche puisse l’indexer en long en large et en travers, peuvent s’avérer un « backup en dur » non négligeable.

Alors webmasters d’un site perso ou d’entreprise à gros business, un conseil : Éviter de placer la balise

<meta name= »robots » content= »noarchive »>

(qui donne l’ordre de ne pas faire apparaître de version cache de vos pages dans les résultats de moteurs de recherche) sur les pages de votre site, cela pourra peut-être vous sauver la mise si vos sauvegardes ne sont pas assez fraiches (ne vous attendez pas non plus à trouver dans les pages en cache des infos que vous avez publié il y 10 minutes bien que… ).


9 Responses to “Sauvé par le cache des moteurs de recherche”

  • Herve Says:

    L’idée est bonne et je la note, on peut aussi se servir de http://www.archive.org qui permet en plus de retrouver du contenu plus ancien en cas de besoin.

  • Miniatures militaires Says:

    Il ne faut tout de même pas trop compter dessus puisque Google repasse sur le site quand il veut, surtout sur les blog quand on le ping ;-)

  • Dan Says:

    Bonjour « Miniatures militaires », merci pour ton commentaire. Tu n’as pas tord, les pages en cache restent une « alternative ».
    Il n’en reste pas moins que si tu mets pas 4 plombes a aller chercher le contenu des pages en cache de ton site, tu pourras récupérer de bonnes informations ;-)

  • Aurelien Says:

    J’avais vu sur un forum un script qu’un membre avait développé suite à une perte de donnée pour scrapper le cache Google et réinjecter automatiquement dans sa BDD. Pratique…

    Je me rappelle également avoir « sauvé » avec le cache google un intégrateur ayant supprimé en prod et en pré prod le contenu d’une page d’un client :D

  • Blog Referencement Says:

    C’est que je me suis déjà servie des pages en cache pour récupérer des données perdues. Exemple un article supprimé par erreur. C’est bien utile.

  • Referencement internet Says:

    Et oui un petit « tips » qui m’a déjà été bien utile quand j’écrasais notamment par mégarde la liste de mes partenaires en footer que je n’avais pas pris soin de copier… :-)

  • Guignol Says:

    Le cache est très utile, je me souviens de la fois ou les photos de Laure Manodou, notre championne de natation ont été mises sur le Web.
    Rapidement il a fallu les enlever car la justice avait été saisie de l’affaire et malgré cela elles étaient encore visible grâce au cache.

  • Magicien Says:

    Le cache est utile certe, mais dans certains cas , il faut être rapide car le cache dure pas si longtemps que cela. Tout dépend du site. Un petit site peu connu aura un cache qui peu durée plusieurs jours.

  • Gregory from site de rencontre gratuit Says:

    ça m’arrive souvent d’utiliser le cache Google notamment pour récupérer des articles quand un membre du forum se dit : j’ai eu ma réponse, je vais virer mon post ! (tu me diras c’est toujours mieux que de le voir l’éditer pour y mettre des liens)