Valid XHTML 1.0!
MEGACHERCHEUR
VOTRE RECHERCHE SUR MEGACHERCHEUR.COM

[La désynchronisation des data centers de Google]

La désynchronisation des data centers de GoogleCet article reprend plusieurs fils du forum de discussion. Il est inspiré de nombreuses réflexions (et de la perplexité !) des webmasters français et américains sur les forums de référencement. Tout a commencé lors de la mise-à-jour des BL (backlinks) de janvier 2005...

Le fonctionnement du Web fait que lorsqu'un site vous semble pertinent, vous lui faîtes un lien : les moteurs de recherche considèrent donc comme pertinent un site qui a beaucoup de liens externes (ce qui a pousse les webmasters à une chasse effrénée aux BL, voir les concours de référencement).

Contrairement à d'habitude, dans les semaines qui ont suivi le début d'années, les différents centres de calcul de Google (data centers) ne se sont pas alignés les uns sur les autres et ont continué à renvoyer des résultats différents. Les webmasters étant très attentifs au nombre de BL que leur site enregistre (exemple de commande à taper sous Google link:www.megachercheur.com), la perplexité s'est installée.

Précisons tout de suite que le caractère désordonné et anarchique des résultats ne porte pas seulement sur les tests de BL (sinon ça n'embêterait que les webmasters). Les requêtes sur les mots-clé (celles tapées par les internautes) renvoient aussi des résultats complètement différents, ce qui fait que certains sites ont vu leur trafic en provenance de Google s'effondrer complètement. Ceci dit, l'ensemble du phénomène décrit ici est peu (voir pas du tout) visible pour les internautes, car ceux-ci ne s'amusent pas à faire des comparaisons d'un DC à l'autre.

On a ainsi commencé à parler du phénomène de désynchronisation des data centers. Là-dessus, une nouvelle mise-à-jour des BL intervient en février. Mais pas sur tous les DC ! Certains continuant à renvoyer le nombre de BL du mois précédent. Cependant tous ces résultats dépendent de chaque site indexé, de sa politique de référencement, des erreurs commises par chacun etc. Il manquait un critère commun pour évaluer les transformations de Google.

Google se vantant d'avoir indexé huit milliards de pages, Jean Véronis, professeur de linguistique à Aix-en-Provence, a alors l'idée de faire une recherche sur le mot anglais le plus courant, l'article the (difficile de faire une phrase en anglais sans l'utiliser). A partir de là, les choses vont devenir plus claires. On commence à distinguer des groupes de DC.

La plupart des centres de calcul (le groupe A) renvoient aujourd'hui entre 2,96 et 3,7 milliards de résultats sur le mot the (sans guillements). C'est proche de ce que renvoie Yahoo!, qui est entre 3,87 et 3,52 milliards de pages (Yahoo! indexe manifestement un plus grand nombre de pages que Google). Les autres DC, moins nombreux (groupe B), renvoient 8 milliards de résultats sur le mot the, ce qui est une absurdité logique. Enfin, un troisième groupe de DC (groupe C) semble se situer quelque part entre les deux autres en terme de résultats.

L'hypothèse forte actuellement est celle d'un bug de l'index de Google. La société s'en étant rendu compte, ses ingénieurs sont actuellement en train de corriger cela, à l'aide de nombreux tests. D'où le caractère complètement anarchique des résultats, et l'existence en parallèle des trois algorithmes différents ! Certains DC (ceux du groupe B) continuent à renvoyer les anciens résultats, ceux qui relèvent d'un algorithme buggé. Ceux du groupe C renvoient des résultats en partie corrigés. Enfin, les DC du groupe A sont ceux qui ont été fixés. Il est à prévoir que cela va se normaliser dans les semaines qui viennent, l'alignement intervenant sur le groupe A.

Il est clair qu'avec tous ces changements, certains webmasters y gagnent et d'autres y perdent (gros pour certains). Mais une chose est sûr : ils ne pèsent rien du tout dans la balance.

Pour en savoir plus, l'indispensable est de lire l'article Google: 5 milliards de "the" sont partis en fumée ainsi que les autres sur le même thème qu'on trouve sur le site de Jean Véronis. On peut suivre aussi la discussion Significant Changes In Google Results: March 2005 sur le forum anglophone Searchenginewatch.

Le 28 mars 2005

Article suivant : la liste (complète a priori) des data centers de Google.

Articles liés : La désynchronisation des data centers de Google
Mise en place d'un test sur la désynchronisation des DC
Le test sur la désynchronisation des DC, page évolutive

Cet article peut être librement repris sur vos sites, avec la mention : Extrait de La désynchronisation des data centers de Google disponible sur Megachercheur.com


Valid XHTML 1.0! et Valid CSS!