nov 26 2008

Sauvé par le cache des moteurs de recherche

Perte de données ? Les moteurs de recherche peuvent vous venir en aide !

Comment ?

Définissons dans un 1er temps ce qu’est une page en cache chez Google, Yahoo !, Live Search. Quelles informations trouvons nous dans la section aide de ces derniers ?

Pour Google :

« Lorsque ce dernier explore le Web, il crée une copie de chaque page examinée et la stocke dans une mémoire cache, ce qui permet de consulter cette copie à tout moment, et en particulier dans le cas où la page originale (ou Internet) serait inaccessible. Lorsque vous cliquez sur le lien « Copie cachée » d’une page Web, Google affiche celle-ci dans l’état où elle se trouvait lors de son indexation la plus récente. Par ailleurs, le contenu caché est celui sur lequel se base Google pour déterminer si une page est pertinente pour vos requêtes. »

Source Google : Pages en cache

Pour Yahoo ! :

« Une page « en cache » est un enregistrement d’une page Web pris par nos robots en parcourant un site. Ils enregistrent une copie des pages Web et la stocke sur nos serveurs. Ces versions en cache sont très utiles si les pages originales du site ne sont pas accessibles (en cas de panne de serveur, par exemple). »

Source Yahoo ! : Pages en cache

Pour Live Search :

Pas de définition dans l’aide de Live Search. Juste quelques indications en haut de page une fois sur la page en cache

« Vous trouverez ci-dessous un aperçu de la page Web telle qu’elle s’affichait sur ….. (la dernière fois que notre robot l’a examinée). Il s’agit de la version de la page utilisée pour classer vos résultats de recherche. Cette page peut avoir changé depuis sa dernière mise en cache. Pour voir ce qui peut avoir changé (sans le surlignage), visitez la page actuelle »

Pour résumer la principale fonction pour l’internaute est de donner accès à une copie d’une page de votre site si ce dernier est en rideau, en maintenance, ou que sais-je encore, bref pas accessible quoi :-). Pour le référenceur l’intérêt peut-être tout autre.

Mais pour revenir au sujet « Sauvé par le cache des moteurs de recherche« , cette fonction m’a été utile suite à une boulette sur mon blog. J’ai effacé, récemment, involontairement, tous les commentaires de mon blog.

Vous allez me dire quel boulet, quel noob celui là ! j’entends déjà d’ici les « et les sauvegardes régulières des données tu connais pas ? ».Si bien sûr, mais ma dernière ne m’a pas permis de récupérer suffisamment de données.

Du coup en me plaçant comme internaute et en faisant une requête pour lister la totalité des pages indexées par les moteurs (site:www.monsite.com sous Google)  j’ai pu récupérer 95% des commentaires en mixant les pages en cache de Google, Yahoo, Live Search.

Tout ça également parce que les moteurs indexent de plus en plus de données et que les mises à jour des pages dans les bases de données des moteurs sont de plus en plus rapides.

Au final les pages en cache, si vous optimisez votre site afin que les moteurs de recherche puisse l’indexer en long en large et en travers, peuvent s’avérer un « backup en dur » non négligeable.

Alors webmasters d’un site perso ou d’entreprise à gros business, un conseil : Éviter de placer la balise

<meta name= »robots » content= »noarchive »>

(qui donne l’ordre de ne pas faire apparaître de version cache de vos pages dans les résultats de moteurs de recherche) sur les pages de votre site, cela pourra peut-être vous sauver la mise si vos sauvegardes ne sont pas assez fraiches (ne vous attendez pas non plus à trouver dans les pages en cache des infos que vous avez publié il y 10 minutes bien que… ).


nov 18 2008

Les robots, crawlers des moteurs ne respectent plus rien…

C’est bien la question que l’on peut se poser aujourd’hui…

La balise meta robots  (<meta name= »robots » content= »… » />) qui a pour vocation de dire en théorie ce que doivent faire les robots des moteurs de recherche en arrivant sur une page semble ignorée.

En effet certains webmasters ont noté que le robot de Live Search (MSN) visitait ces pages et permettait l’indexation de ces dernières malgré que cette balise <meta name= »robots » content= »noindex » /> lui donne l’ordre inverse.

+ d’infos sur le blog Oseox Live ne respect pas le noindex

Même Google reconnaît avoir des ratés à ce niveau (Faute avouée, à demi pardonnée) .

+  d’infos ici : Balises meta pour bloquer…

Dans l’index de Google il ne serait donc pas rare de voir certaines de ces pages indexées…

Et du coté de Yahoo ! ? aucun accident d’indexation ne semble avoir été recensé pour le moment (du moins mes recherches n’ont abouti à rien à ce sujet)

Que faut-il faire alors pour bien se couvrir, pour préserver un contenu que l’on aimerait voir apparaître à un moment précis et non pas quand les moteurs de recherche le décident ? (non mais, on n’est plus chez soi)

Doublez votre « interdiction » en précisant cela dans un fichier robots.txt placé à la racine de votre site. Deux protections valent mieux qu’une.

+ d’infos ici :Bien construire son fichier robots.txt

Si vous devez absolument mettre ces pages en ligne :

- Ne pas lier ces pages à votre site (pages orphelines) et ne pas faire de liens (d’autres sites) vers elles.

- Mettre un password pour parer à la visite d’un internaute perdu sur le web qui tomberait malencontreusement sur ces pages.

- Enfin, la meilleure des parades à mon avis, c’est de garder vos pages en local le temps qu’elles soient finalisées.

Un retour d’expérience à ce sujet ? n’hésitez pas à nous laisser un commentaire.


nov 13 2008

Enorme perte d’audience pour Google en Octobre 2008

Que se passe t-il Google n’a plus la cote ?  la crise économique va avoir raison de Google ? Yahoo et Live Search ont trouvé la parade pour piquer d’énormes parts de marché au roi des moteurs de recherche ???

Et non ? Je vous rassure Google marque juste le pas, reste au dessus des 90% et les autres sont toujours loin derrière (oui oui tout au fond ).

+  d’infos à la source : Baromètre des moteurs Octobre 2008


nov 10 2008

Bien construire son fichier robots.txt

Le fichier robots.txt est un fichier au format texte, placé à la racine d’un site web

Interrogé par les robots des moteurs de recherche, il leur donne les instructions à faire ou ne pas faire sur votre site web.

Il est donc important de bien guider les robots pour qu’ils visitent les pages que vous les autorisez à voir, et qu’ils n’aillent pas voir les pages que seul vous voulez voir.

Pour autoriser les robots des moteurs de recherche à indexer votre site :

Insérer ces 2 lignes dans votre fichier robots.txt :

User-agent: *
Disallow:

User-agent: * signifie que vous donnez l’accès à tous les robots des moteurs de recherche.

Disallow: indique les pages, repertoire à bloquer. Ici rien est à bloquer comme rien est spécifié.

Un fichier robots.txt vide ou inexistant aura une conséquence identique.

Pour interdire totalement ou partiellement l’accès à votre site web :

Interdire à tous les robots de visiter votre site :

Insérer ces 2 lignes :

User-agent: *
Disallow: /

Interdire aux robots de visiter une page :

User-agent: *
Disallow: toto.html

Interdire aux robots de visiter le contenu d’un répertoire :

User-agent: *
Disallow: /perso

Pour interdire à certains et autoriser à d’autres :

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:

Dans ce cas le robot de Google à tous les droits de visite sur votre site et les autres ne peuvent rien voir.

Localisation du fichier sitemap.xml :

Pour faire connaître la localisation de votre fichier sitemap vous pouvez rajouter cette ligne dans votre fichier robots.txt :

site: http://www.votresite.com/sitemap.xml

+ d’infos sur le fichier sitemap.xml ici

Si vous ne voulez pas vous prendre la tête avec ce fichier important ou avait peur de vous louper,  vous pouvez utiliser des générateurs de robots.txt en ligne. En voici une petite liste :

http://outils.enaty.com/outils/generateur-robots.php

http://www.mcanerin.com/en/search-engine/robots-txt.asp

http://www.seochat.com/seo-tools/robots-generator/

et bien d’autres…

Même Google propose un outil de génération de robots.txt via GWT (https://www.google.com/webmasters/tools/)

Pour finir, vous pouvez doubler vos interdictions, par le biais de la balise <meta name= »robots » content= »noindex, nofollow »> par exemple dans les pages que vous ne souhaitez pas voir apparaitre.