Université
de Neuchâtel
Logo UniNE
 
 
   UniNE > IIUN annuaire | plan du site | accès | contact  

Les résultats de Google sont-ils biaisés ?

Jacques Savoy

Dépister de l’information sur Internet passe pour 80 à 85 % d’entre nous par les moteurs de recherche. Souvent nous y trouvons les références souhaitées et nous assumons, implicitement, que la liste proposée n’était pas biaisée, du moins pas de manière systématique. Cependant, durant le mois de janvier, on apprenait que Google.cn retirerait certains sites de ses listes de résultats pour satisfaire les exigences du gouvernement chinois. Cette pratique soulève la question de savoir s’il existe un biais dans les résultats que me fournit Google ?

Depuis peu, nous connaissons la réponse, du moins pour certaines parties de la planète et pour certaines requêtes. Mais dans les autres cas, existe-t-il un biais dans les résultats proposés par Google  ? Selon les informations disponibles sur son site, Google indique que le classement des pages retrouvées se base sur un indice nommé PageRank qui « mesure objectivement l’importance des pages Web » (voir www.google.com/corporate). Ainsi chaque page de la Toile possède son indice PageRank variant de 0 (le plus bas) à 10 (le plus haut).

Pour calculer cet indice pour une page donnée, on tient compte des autres pages de la Toile qui pointent vers elle. Dans un tel système d’évaluation, on imagine la Toile comme un système démocratique dans lequel la présence d'un lien vers une page indique une recommandation vers la page citée voire un vote en faveur de cette page. Plus vous avez de pages pointant sur votre site, plus votre indice PageRank va augmenter. Vous avez plus de recommandations, vous accumulez plus de votes, alors votre notoriété ou votre visibilité grandit dans le monde du Web. Mais l’idée derrière PageRank est un peu plus subtile. En effet toutes les pages de la Toile n’ont pas la même valeur. Une recommandation d’une personne célèbre aura plus d’impact que celle venant d’un inconnu. De même, votre indice PageRank sera renforcé si les pages qui font référence à la vôtre possèdent un indice élevé.

Les indices PageRank devraient être corrélés à la notoriété, l’importance ou la visibilité de la page donc, en d’autres termes, à la qualité de son contenu. Un petit survol de la Toile en Suisse nous renseignera sur les sites les plus visibles. Notre parcours débute dans les entreprises avec un indice de 8 pour CreditSuisse.ch, un 7 pour swatch.ch, ubs.ch ou swiss.ch. Avec un indice de 6, on retrouve nestle.ch, roche.ch. Les administrations publiques possèdent également leur indice PageRank avec un 7 pour la confédération (www.admin.ch) et pour le canton de Vaud, tandis que les autres cantons romands possèdent une note de 6. La presse représente aussi des fournisseurs importants d’information sur la Toile. Avec un indice de 7, on retrouve LeTemps.ch, LeMatin.ch et la Tribune de Genève ainsi que la TSR ou la RSR tandis que les autres quotidiens ou l’Agence Télégraphique Suisse possèdent généralement un indice de 6. Mais les indices ne sont pas toujours aussi élevés. Ainsi le site de Xamax possède une note de 5 tandis qu’une note de 4 a été attribuée à celui du Lausanne-Sport, de Gottéron ou de Genève Servette. Les indices PageRank peuvent également tomber au plus bas et atteindre un 0 comme, par exemple, pour la commune fribourgeoise de Galmiz (site encore en construction, ce qui explique peut-être le manque de visibilité de cette commune sur la Toile). Et les meilleures notes ? Est-ce que dans le domaine « .ch » le meilleur indice serait seulement un 8 ? J’ai tout de même dépisté un indice de 9 avec Google.ch, et même un 10 avec Serono.ch.

Pour PageRank, la présence d’un lien dénote une recommandation. Or une telle hypothèse n'est pas vérifiée dans tous les cas comme, par exemple, en présence de liens de navigation à l'intérieur d'un site ou lorsque un lien se dirige vers la dernière version d’Acrobat Reader d’Adobe. Ce phénomène explique certainement la note de 10 obtenue par le site www.adobe.com. De plus, on sait que la très grande majorité des liens assure la navigation à l’intérieur d’un site. Comme habituellement toute page propose un lien vers la page d’entrée du site, on ne sera pas étonné d’apprendre que la note PageRank attribué à la page d’accueil possèdera, généralement, un indice supérieur aux autres pages d’un site. Dans le classement proposé par Google, on favorisera donc les pages d’accueil des sites au détriment des autres.

Si l’on désire connaître les a priori de Google, on peut lui soumettre une requête composée d’un seul mot très fréquent dans une langue comme « de » ou « le » pour le français. Comme un tel mot apparaît dans toutes les pages, le classement devrait dépendre uniquement des notes PageRank. Si vous faites l’expérience, vous verrez qu’il existe quelques différences entre les réponses proposées par Google.ch , Google.be, Google.ca ou Google.fr. Examinons d’abord les invariants occupant les trois premières positions aux requêtes « de » ou « le ». Selon Google, les sites ayant la plus grande notoriété dans le monde francophone sont la Bibliothèque nationale de France (note de 8), le château de Versailles (note de 7), l’Élysée (7), ou La Poste (7), La Tribune (7) ou La Recherche (7). Pour la Suisse francophone, on voit ensuite apparaître l’École polytechnique de Lausanne (8) ou l’Université de Genève (8). La Belgique se distingue par la présence de l’Université libre de Bruxelles (8) ou celle de Liège (8). Au Canada, on retrouve deux universités (Université de Montréal (8) ou de Sherbrooke (7)) mais également, peut-être indice d’une différence culturelle, la Toile du Québec (un répertoire des sites web québécois avec une note de 7) ou Cyberpresse (7). Les notes PageRank ne forment pas l’unique clé de classement comme le démontre cet exemple à travers quatre pays francophones. En effet, dans le cas présent, le moteur a adapté sa réponse en fonction d’un pays.

Mais parfois le biais dans la réponse n’est pas aussi bénéfique pour l’usager ou le site référencé. Ainsi, en prenant 18 entreprises suisses appartenant au SMI et ayant un site dans le domaine « .com », je me suis rendu compte que la note PageRank du site dans le domaine « .com » était très souvent supérieure à celle du site dans le domaine « .ch ». Par exemple, si novartis.ch possède une note de 5, le site novartis.com a un indice PageRank de 8. La différence s’élève en moyenne à un point et elle est statistiquement significative (l’accroissement n’est pas le simple fruit du hasard). Une équipe de la National Autralian University [UPS 03] a analysé ces notes sur une plus grande échelle (soit en analysant 5370 entreprises). Les raisons suivantes peuvent expliquer l’attribution des notes par le moteur Google. Pour les États-Unis, les entreprises présentant les chiffres d’affaires les plus élevés (et apparaissant dans le classement de Fortune 500) gagnent un point PageRank (par exemple Walmart (8), GM (8), Ford (8), Exxon (7)), de même que les firmes possédant une bonne image auprès du public (Most Admired US Companies) ou celles qui œuvrent dans la haute technologie. Les entreprises détenant des marques réputées gagnent en moyenne deux points, de même que celles qui sont cotés au NASDAQ (Apple (10), eBay (9), Amazon (9)). Selon cette étude, il n’y pas de biais systématique en faveur des entreprises américaines si on les compare aux firmes australiennes.

Le classement des sites dépistés par Google  s’établit, théoriquement, en fonction de la note PageRank qui devrait être corrélée avec leur importance objective. Or les expériences démontrent que ce système d’évaluation favorise les pages d’accueil des sites. De plus, ce critère favorise les grandes sociétés, celles qui sont admirées par le public, possédant des marques prestigieuses et œuvrant dans la haute technologie ou la nouvelle économie. Le classement des sites par PageRank reflète l’importance économique (les grandes sociétés avant les PME) et favorise clairement certains secteurs (haute technologie ou les acteurs de la Nouvelle Economie). Reste à savoir s’il existe aussi un biais favorisant les sites rédigés dans certaines langues ou provenant de certains pays ?

Référence

[UPS 03] Upstill T., Craswell N., Hawking D., « Predicting fame and fortune: PageRank or Indegree? », Proceedings of 8th Australasian Document Computing Symponium (ADCS), Canberra, 2003.


Prof. Jacques Savoy
Universite de Neuchatel
Computer Science Department
Rue Emile-Argand 11
CH-2009 Neuchâtel
Switzerland


+41 32 718 1375 (phone)
+41 32 718 2701 (fax)