
Cet article vise à proposer des tests et recueillir un faisceau d'indices pour tenter de valider ou pas ce qui est avancé dans
La désynchronisation des data centers de Google. Vaste est l'objectif et modestes sont les moyens, la modestie est donc de rigueur.
La première chose à dire en guise de préalable, c'est qu'on ne saura probablement jamais le fin mot de l'histoire. Google n'acceptera pas de se ridiculiser en reconnaissant les faits, surtout après leur annonce marketing d'il y a quelques mois selon laquelle leur moteur indexerait huit milliards de pages. Ce test ne fera que renforcer ou pas une hypothèse, mais ne "prouvera" pas grand-chose. Place ensuite à la
discussion...
Rappelons l'hypothèse de départ : les ingénieurs de Google prennent conscience que leur algorithme est buggé. Principal indice pour le public de la sphère googlienne, une recherche sur l'article anglais
the renvoie huit milliards de résultats, ce qui est une absurdité linguistique. C'est surtout la partie visible d'un iceberg, un simple indice que derrière se cache des problèmes bien plus graves.
Mobilisation générale chez Google, et mise en place progressive d'un nouvel algorithme. Ce nouvel algorithme qui corrige le bug est obligé dans l'urgence d'aller chercher et de retourner aux internautes des données datant de plusieurs mois en arrière. En février, nos collègues américains de
SearchEngineWatch découvrent ce nouvel algo et baptisent du nom de groupe A les DC qui relèvent de lui. Ils baptisent de groupe B les DC qui continuent à renvoyer huit milliards de résultats sur
the.
Un mouvement s'enclanche, qui consiste à basculer peu à peu les DC du groupe B vers le groupe A (en mettant en plus à jour les données). Actuellement, j'estime que nous sommes encore dans ce moment transitoire de basculement, mais mon pronostic est qu'il va prendre fin assez vite. Déjà, les DC du groupe B se raréfient.
Pour que l'hypothèse se confirme, il faudrait réussir à montrer que les DC utilisant l'algorithme buggé vont peu à peu disparaître et s'aligner sur les autres (qui renvoient environ trois milliards de réponses). Jusqu'à ce qu'on arrive à la synchronisation telle qu'on la connaissait.
J'ai sélectionné plusieurs mots-clé, et j'ai noté comment ils ressortaient le 29 mars sur chacun des deux groupes de DC. L'objectif est de refaire le même test les jours ou semaines qui suivent, jusqu'à la synchronisation postulée. J'ai choisi deux DC représentatifs l'un du
groupe A, l'autre du
groupe B. Le premier est appelé à perdurer, le second (celui qui est buggé) risque à n'importe quel moment d'être fixé et de rejoindre le groupe A (c'est ce qui arrive peu à peu à tous ses congénères depuis au moins février).
Si le DC du groupe B rejoint le A, il faut donc continuer le test en choisissant un autre DC du groupe B jusqu'à ce qu'il n'y en ait plus aucun. Place maintenant au
test proprement dit.
Le 29 mars 2005
Articles liés :
La désynchronisation des data centers de Google
Mise en place d'un test sur la désynchronisation des DC
Le test sur la désynchronisation des DC, page évolutive