Valid XHTML 1.0!
MEGACHERCHEUR
VOTRE RECHERCHE SUR MEGACHERCHEUR.COM

[Google et la désindexation due à la similarité des pages]

Google et la désindexation due à la similarité des pagesPendant un temps, les webmasters parlaient beaucoup de blacklistage lorsque leur site disparaissait dans les profondeurs de Google. De nos jours ce fantasme a cédé la place à un phénomène bien réel, celui de désindexation due à la similarité des pages.

Attention à ne pas mélanger le concept avec les "Pages à contenu similaire" ! Sur certaines requêtes, Google n'affiche qu'une partie des résultats puis indique : "Pour limiter les résultats aux pages les plus pertinentes (total : xx), Google a ignoré certaines pages à contenu similaire. Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées." Google mesure dans ce cas la similarité entre les snipets. S'il ignore certaines pages, ce n'est en rien une sanction (pour voir toutes les pages, il suffit d'ajouter &filter=0 dans la barre d'adresse du navigateur).

La désindexation due à la similarité des pages, c'est autre chose !

Ce phénomène concerne les sites qui pratiquent les techniques de sur-optimisation pour améliorer leur classement dans les moteurs de recherche. Dans le passé, Google s'intéressait à deux choses : le contenu et le nom des pages. Les pages pauvres en contenu (texte) étaient mal indexées. Les pages dynamiques écrites en Php avec des variables étaient mal comprises des moteurs. La solution pour les webmasters a pris une double forme : site dynamique et Url rewriting.

Le Php est un langage qui permet de créer un site dynamique grâce à l'utilisation de variables. Un site statique de 20 pages pauvre en contenu peut se transformer en site dynamique de 700 pages. Deuxièmement l'Url rewriting permet de masquer les variables dans le nom du site pour génerer une page Html classique. L'association des deux techniques a permis de fournir à Google ce qu'il voulait : contenu (!) et pages indexables.

Pages dynamiques plus Url rewriting, les moteurs n'y ont longtemps vu que du feu. Avec dix pages de texte, on peut générer à la volée des centaines de pages avec des titres tous mieux formatés les uns que les autres. Les résultats de Google ont commencé à perdre leur pertinence. Un site de 10 pages qui en génèrent 700 passait devant un honnête site de 50 pages, fruit de mois de travail. De fait de nombreux webmasters commentent aujourd'hui la pollution qui règne sur les pages de résultats de Google. C'est la pertinence du moteur pour ses visiteurs qui est en cause, et Google se devait de réagir.

La réaction de Google a été d'évaluer le nombre de pages réellement pertinentes d'un site qu'il indexe, afin d'éliminer le plus possible la pollution de ses résultats. Un véritable casse-tête ! Comment déterminer si tel site d'immobilier ou de voyages est mieux que tel autre ? Google n'étant spécialiste ni en immobilier ni en séjours touristiques, il ne peut répondre à cette question...

Par contre le moteur peut mesurer la similarité des pages. Si le site d'immobilier comporte 7000 pages mais que 6700 sont quasi-identiques, il ne va en retenir que 300. Le site ne ressortira pas dans les résultats sur les autres requêtes (d'où les crises de nerf des webmasters). Après les webmasters de petits sites statiques de 20 pages criant après les "tricheurs", on a maintenant les webmasters de gros sites dynamiques pris la main dans le sac hurlant après "le monopole et l'arrogance" de Google. Ni les uns, ni les autres n'y trouvent leur compte d'ailleurs.

Si votre site est victime de désindexation due à la similarité des pages, il n'est pas très évident d'en sortir. Repasser en site statique de 50 pages ne résoud rien (même si c'est moins bidon que prétendre en avoir 7000). En effet, vous passez derrière les sites dynamiques non encore désindexés (prime aux nouveaux, ceux qui ne se sont encore fait prendre). Il y a donc un roulement permanent dans les premiers résultats, mais peu de stabilité. Beaucoup de webmasters ont alors cherché à tout recommencer (site dynamique et Url rewriting) sur un autre nom de domaine, en changeant l'apparence des pages. Mais là aussi, Google a trouvé la parade !

Le moteur a longtemps fait sa publicité sur sa rapidité à indexer de nouvelles pages. De fait sur un site bien référencé, la publication de nouvelles pages entraînent leur indexation rapide. Mais pour les nouveaux sites ? Dans le passé, ils étaient indexés rapidement et ressortaient tout aussi vite dans les résultats. Mais il n'en est plus de même aujourd'hui... Car Google doit écarter les webmasters qui créent des sites comme ils changent de chemise, uniquement pour bombarder l'index de pages poubelles (pages dynamiques quasi-identiques). D'où le phénomène largement commenté (depuis juin 2004 ) mais pas encore vraiment prouvé de sandbox (bac à sable).

Google placerait les sites nouvellement lancés en attente, pour six mois ou plus. Pendant cette période probatoire, les sites en question ne ressortiraient que très peu dans les résultats. Ainsi les webmasters récemment désindexés ne pourraient immédiatement recommencer sur d'autres noms de domaine juste en changeant le design. Bien sûr beaucoup de monde est pénalisé, mais les sites anciens et non sur-optimisés ne sont pas touchés.

L'autre solution, plutôt que de lancer de nouveaux noms de domaine, est d'optimiser la similarité des pages. C'est là qu'est l'avenir : repérer le seuil de pourcentage de similarité qui est admis par Google, et essayer en pages dynamiques de se situer en dessous. Pas très évident non plus, mais à creuser !

Article suivant : la désynchronisation des data centers de Google.

Cet article peut être librement repris sur vos sites, avec la mention : Extrait de Google et la désindexation due à la similarité des pages disponible sur Megachercheur.com


Valid XHTML 1.0! et Valid CSS!