
Cet article reprend plusieurs fils du
forum de discussion. Il est inspiré de nombreuses réflexions (et de la perplexité !) des webmasters français et américains sur les
forums de référencement. Tout a commencé lors de la mise-à-jour des BL (
backlinks) de janvier 2005...
Le fonctionnement du Web fait que lorsqu'un site vous semble pertinent, vous lui faîtes un lien : les moteurs de recherche considèrent donc comme pertinent un site qui a beaucoup de liens externes (ce qui a pousse les webmasters à une chasse effrénée aux BL, voir les
concours de référencement).
Contrairement à d'habitude, dans les semaines qui ont suivi le début d'années, les différents centres de calcul de Google (
data centers) ne se sont pas alignés les uns sur les autres et ont continué à renvoyer des résultats différents. Les webmasters étant très attentifs au nombre de BL que leur site enregistre (exemple de commande à taper sous Google
link:www.megachercheur.com), la perplexité s'est installée.
Précisons tout de suite que le caractère désordonné et anarchique des résultats ne porte pas seulement sur les tests de BL (sinon ça n'embêterait que les webmasters). Les requêtes sur les mots-clé (celles tapées par les internautes) renvoient aussi des résultats complètement différents, ce qui fait que certains sites ont vu leur trafic en provenance de Google s'effondrer complètement. Ceci dit, l'ensemble du phénomène décrit ici est peu (voir pas du tout) visible pour les internautes, car ceux-ci ne s'amusent pas à faire des comparaisons d'un DC à l'autre.
On a ainsi commencé à parler du phénomène de
désynchronisation des data centers. Là-dessus, une nouvelle mise-à-jour des BL intervient en février. Mais pas sur tous les DC ! Certains continuant à renvoyer le nombre de BL du mois précédent. Cependant tous ces résultats dépendent de chaque site indexé, de sa politique de référencement, des erreurs commises par chacun etc. Il manquait un critère commun pour évaluer les transformations de Google.
Google se vantant d'avoir indexé huit milliards de pages,
Jean Véronis, professeur de linguistique à Aix-en-Provence, a alors l'idée de faire une recherche sur le mot anglais le plus courant, l'article
the (difficile de faire une phrase en anglais sans l'utiliser). A partir de là, les choses vont devenir plus claires. On commence à distinguer des groupes de DC.
La plupart des centres de calcul (le groupe A) renvoient aujourd'hui entre 2,96 et 3,7 milliards de résultats sur le mot
the (sans guillements). C'est proche de ce que renvoie Yahoo!, qui est entre 3,87 et 3,52 milliards de pages (Yahoo! indexe manifestement un plus grand nombre de pages que Google). Les autres DC, moins nombreux (groupe B), renvoient 8 milliards de résultats sur le mot
the, ce qui est une absurdité logique. Enfin, un troisième groupe de DC (groupe C) semble se situer quelque part entre les deux autres en terme de résultats.
L'hypothèse forte actuellement est celle d'un bug de l'index de Google. La société s'en étant rendu compte, ses ingénieurs sont actuellement en train de corriger cela, à l'aide de nombreux tests. D'où le caractère complètement anarchique des résultats, et l'existence en parallèle des trois algorithmes différents ! Certains DC (ceux du groupe B) continuent à renvoyer les anciens résultats, ceux qui relèvent d'un algorithme buggé. Ceux du groupe C renvoient des résultats en partie corrigés. Enfin, les DC du groupe A sont ceux qui ont été fixés. Il est à prévoir que cela va se normaliser dans les semaines qui viennent, l'alignement intervenant sur le groupe A.
Il est clair qu'avec tous ces changements, certains webmasters y gagnent et d'autres y perdent (gros pour certains). Mais une chose est sûr : ils ne pèsent rien du tout dans la balance.
Pour en savoir plus, l'indispensable est de lire l'article
Google: 5 milliards de "the" sont partis en fumée ainsi que les autres sur le même thème qu'on trouve sur le site de Jean Véronis. On peut suivre aussi la discussion
Significant Changes In Google Results: March 2005 sur le forum anglophone Searchenginewatch.
Le 28 mars 2005
Article suivant : la liste (complète
a priori) des
data centers de Google.
Articles liés :
La désynchronisation des data centers de Google
Mise en place d'un test sur la désynchronisation des DC
Le test sur la désynchronisation des DC, page évolutive

et