Intéressant billet de Jean Véronis : Google perd la Boole (et un excellent jeux de mot)
Il épingle un curieux comportement de Google : Le nombre de pages qui contiennent soit le mot « Chirac » ou soit le mot « Sarkozy » (le booléen ‘OU’), ou les deux (le booléen ‘ET’ où les deux mots doivent être présent dans la page), devrait être au moins égal au nombre de pages contenant minimalement le mot « Chirac », or il démontre qu’il est inférieur à la moitié.
C’est à dire qu’il y a plus de pages qui contiennent le mot « Chirac » que de page qui contiennent « Chirac » OU « Sarkozy » (or ici le OU ne devrait pas affecter les termes de la requête)
« Bien sûr, je sais que les nombres retournés par Google sont des approximations (d’ailleurs le moteur précise bien environ x résultats), que les valeurs peuvent légèrement varier en fonction des « centres de données » qui traitent la requête et qui peuvent varier d’un moment à l’autre. Ces raisons pourraient expliquer de petites différences, mais pas des différences du simple au double. » (source)
Le problème est troublant pcq il touche la crédibilité de la requête (la moindre des chose à laquelle on s’attend c’est bien qu’un programme reste logique). Le cas pourrait être bêtement technique s’il ne concernait les pages de queues (qui se soucient d’aller voir la page 200 000 d’une requête?).
En reproduisant la requête de mon côté de l’Atlantique, j’ai remarqué que les 4 premiers liens retournées restaient les mêmes (Chirac possède davantage de Google Juice que son rival).
Mais le 5ieme varie:
Pour ‘Chirac’ seulement on trouve le musée du président Jacques Chirac.
Pour ‘Chirac’ OU ‘Sarkozy’, on trouve chiracaveclafrance.net – Dating info. This website is for sale! (no follow). Un misérable site de squat. Mon étonnement vient du fait que ce site a créé son PageRank avec le mot ‘Sarkozy’ (sinon il n’apparaîtrait pas là).
(Mise à jour 25 janvier:
Ce matin le ranking n’est plus tout à fait pareil. ‘Chirac’ OU ‘Sarkozy’ retourne en pole position un site d’emploi CHIRAC (Concept Hypertexte Internet Rassemblant les Acteurs contre le Chômage) laissé à l’abandon depuis plus de 6 ans. Et le site de squat dont je parlais est repoussé un peu plus loin (7 ou 8ième place). Mais ce site de squat est toujours avant la page officielle de Sarkozy à l’assemblée nationale. Le problème reste entier car si on fait une recherche sur Sarkozy seulement le site de squat et le serveur CHIRAC disparaissent de la liste… Or il est clair que ces 2 sites sont associés au mot clef Sarkozy, donc devrait être là pour uen recherche isolé sur ce mot…)
Ce dernier détail, même s’il n’étonne plus les experts en positionnement, me laisse songeur sur la qualité des résultats de Google. Sommes nous en train de voir les limites de l’algorithme de Google, parasité par son propre succès? C’est à dire que l’observateur Google est en train de modifier ce qu’il observe (les sites web)? Qu’un site de squat monte aussi haut en dit long sur la facilité de détourner l’algorithme à son avantage.
Depuis l’avènement des blogs, on dirait qu’il y a quelque chose qui est débalancé dans le pagerank… Le Sandbox serait-il une réponse que Google nous prépare?
—
Ajouts 26 janvier 2005
Pour des exemples de manipulations du Pagerank:
-Dark SEO Team :Bilan du projet pagerank 10
-Pandia Search Engine News : Spammers hijack web site listings in Google
-Tonyspencer : tracker2.php Pages Hijacked via HTTP 302 Redirect Google Bug
-Lori : Stop Redirects from Hijacking Web Page PR
Pour comprendre le PageRank :
– Initiation de WebRankInfo (en français)
– PR Explained by WebWorkShop (in English)
– PR calculator (advance explanation) by Mark Horrell
ZEROSECONDE.COM (cc) 2004-2012 Martin Lessard
Contenu protégé selon la licence Paternité – Pas d’utilisation commerciale – Partage des conditions initiales à l’identique 2.0 de Creative Commons
Pour donner une image éclatante afin de réinsister sur gravité du ‘bug’ de Google, j’aurai pu donner cet exemple que je trouve plus claire:
Si on demandait à Google de compter le nombre de fruit de type ‘pomme’ dans mon frigo : il en trouverait 6.
Si on demandait à Google de compter le nombre de fruit de type ‘pomme’ OU de type ‘orange’ dans mon frigo : il en trouverait 3.
Or s’il n’avait touvé aucune orange, il aurait dû tout de même répondre : 6. C’est à dire 6 pommes et 0 orange.
Dans ce cas qui nous préoccupe, ça semble être quelque chose comme: Google a trouvé 6 pommes et -3 oranges. 6-3=3 fruits.
Mais pour ‘Chirac’ et ‘Sharkozy’ cette dernière explication ne tient même pas : le nombre de ‘Sharkozy’ n’équivaut pas à la moitié de ‘Chrirac’.