Pour Google, tout est un concours de popularité. Quand j’ai vu que Google avait introduit une section «Papiers classiques» de Google Scholar, son outil de recherche pour les revues universitaires, je n’ai pas pu m’empêcher de me caresser le menton de manière professionnelle. Qu’est-ce qui ferait d’un papier un classique, surtout pour le géant de la recherche? Dans un article de blog présentant la fonctionnalité, l’ingénieur logiciel Google Sean Henderson explique la raison d’être de l’entreprise. Alors que certains articles attirent temporairement l’attention sur une découverte ou une découverte nouvelle et surprenante, d’autres «ont résisté à l’épreuve du temps», comme le dit Henderson.

Comment mesurer cette longévité? Classic Papers sélectionne des articles publiés en 2006, dans un large éventail de disciplines, qui avaient remporté le plus de citations cette année. Devenir un classique, selon Google, est simplement d’avoir été le plus populaire au cours de la décennie au cours de laquelle Google lui-même a pris de l’importance.

Cela peut sembler être un reproche pédant sans importance pour les personnes en dehors du monde universitaire. Mais les articles classiques de Scholar offrent une fenêtre sur la façon dont Google conçoit les connaissances – et l’effet cette théorie a sur les idées que les gens trouvent avec ses services.

* * *

La mission originale de Google est «d’organiser les informations du monde et de les rendre universellement accessibles». Cela semble assez simple, bien que difficile étant donné la quantité de monde de l’information et le nombre de personnes qui pourraient y accéder. Mais cette mission masque certaines questions. Qu’est-ce qui compte comme information? Par quels moyens est-il accessible et à quelles conditions?

Les universaux se désintègrent rapidement en contingences. Les ordinateurs sont nécessaires, pour un. Les informations qui vivent hors ligne, dans les bibliothèques ou dans la tête des gens, doivent être numérisées ou enregistrées pour devenir accessibles «universellement». Ensuite, les utilisateurs doivent payer pour les services de données à large bande ou mobiles nécessaires pour y accéder.

À un niveau inférieur, les recherches ordinaires révèlent la sélectivité de Google. Une requête pour «Zelda», par exemple, produit six pages de liens liés à la série de jeux vidéo Nintendo The Legend of Zelda. Sur la septième page, une référence à Zelda Fitzgerald apparaît. Au huitième, un une pizzeria appelée Zelda à Chicago obtient une reconnaissance, ainsi que le café de Zelda à Newport, Rhode Island. L’ajout d’un terme à la requête, comme «romancier» ou «pizza», produit des résultats différents, tout comme la recherche à partir d’un emplacement physique à Chicago ou à Newport. Mais les résultats par défaut de l’entreprise pour les recherches simples nous rappellent que l’organisation et l’accessibilité signifient quelque chose de très particulier pour Google.

Cette vérité cachée commence avec le PageRank, le premier et le plus important produit de Google. Nommé d’après le fondateur de Google, Larry Page, c’est la méthode par laquelle Google a vaincu presque tous ses prédécesseurs dans la recherche sur le Web. Il l’a fait en mesurant la réputation des sites Web et en utilisant cette réputation pour améliorer ou diminuer sa probabilité d’apparaître plus tôt dans les résultats de recherche.

Lorsque j’ai commencé à utiliser le Web en 1994, il y avait 2738 noms d’hôtes uniques (par exemple, TheAtlantic.com) en ligne, selon Internet Live Stats. C’est assez peu pour qu’il soit toujours logique de cataloguer le Web dans un annuaire, annuaire. C’est exactement ce qu’a fait la grande entreprise Web cette année-là. Il s’appelait Yahoo!

Mais au moment où Page et Sergey Brin ont lancé Google en 1998, le Web était déjà très vaste, comprenant plus de 2,4 millions d’hôtes uniques. Un répertoire aussi volumineux n’avait aucun sens. Les recherches de texte avaient déjà été commercialisées par Excite en 1993, et Infoseek et AltaVista sont apparus en 1995, ainsi que Hotbot en 1996. Ces moteurs de recherche et d’autres ont utilisé une combinaison de placement payant et de correspondance de texte des termes de la requête avec le contenu du Web pages pour produire des résultats.

Ces facteurs se sont avérés faciles à jouer. Si les requêtes correspondent aux mots et expressions sur les pages Web, les opérateurs peuvent simplement masquer les termes trompeurs afin de monter dans le classement. Page et Brin ont proposé un ajout. Parallèlement à l’analyse du contenu d’une page, leur logiciel utiliserait son statut pour la faire monter ou descendre dans les résultats. L’algorithme PageRank est complexe, mais l’idée derrière est simple: il traite un lien vers une page Web comme recommandation pour cette page. Plus une page contient de recommandations, plus elle devient importante pour Google. Et plus les pages qui renvoient vers une page sont importantes, plus ses recommandations sont précieuses. Finalement, cette importance calculée classe une page plus haut ou plus bas dans les résultats de recherche.

Bien que numérique dans l’âme, Google a plutôt rendu la recherche affective. Les résultats semblaient justes, surtout par rapport aux autres premiers outils de recherche. Cette capacité à répondre comme s’il savait ce que ses utilisateurs pensaient nécessaire a jeté les bases du succès de Google. Comme l’explique le spécialiste des médias Siva Vaidhyanathan dans son livre The Googlization of Everything, la pertinence est devenue apparentée à la valeur. Mais cette valeur était toujours «relative et contingente», selon les mots de Vaidhyanathan. C’est-à-dire que la pertinence réelle d’une page Web – qu’elle puisse ou non résoudre le problème ou fournir les informations que l’utilisateur recherchait initialement – est devenue subordonnée au sentiment de joie initiale et de confiance subséquente dans Google. capacité à fournir les «bons» résultats. Et ces résultats sont dérivés principalement d’une série de concours de popularité récurrents PageRank se déroule en coulisses.

* * *

L’idée de Google Scholar de ce qui fait d’un papier un classique se révèle être très similaire à l’idée de Google de rendre un site Web pertinent. Les articles savants citent d’autres articles. Comme un lien, une citation est une recommandation. Avec suffisamment de citations, un article devient «classique» en ayant été cité à plusieurs reprises. Que signifierait «classique» pour Google?

Il s’avère que les chercheurs utilisent depuis longtemps le décompte des citations comme mesure de l’impact des articles et des chercheurs qui les écrivent. Mais certains ont vu les problèmes avec cette métrique comme une mesure de réussite scolaire. D’une part, un seul papier tueur peut fausser le nombre de citations d’un universitaire. Pour un autre, il est relativement facile de jouer le décompte des citations, soit par auto-citation, soit via une cabale de chercheurs apparentés qui se citent systématiquement les uns les autres.

En 2005, peu après la publication de Google, une université de Californie le physicien nommé Jorge Hirsch a tenté de résoudre certains de ces problèmes avec une nouvelle méthode. Au lieu de compter le nombre total de citations, l’indice de Hirsch (ou indice h, comme il est connu) mesure l’impact d’un chercheur en trouvant le plus grand nombre d’articles (appelez ce nombre h) qui ont été cités au moins h fois. Un chercheur avec un indice h de 12, par exemple, a 12 articles dont chacun est cité au moins 12 fois par d’autres articles. L’indice H rétrograde l’impact de quelques articles très réussis sur le statut professionnel d’un universitaire, récompensant à la place la cohérence et la longévité de la production universitaire. La méthode de Hirsch atténue également quelque peu l’effet de la citation de soi et du groupe en minimisant le nombre de citations brutes.

L’indice H est devenu extrêmement influent dans la vie universitaire, en particulier dans les sciences et l’ingénierie. Il n’est pas rare d’entendre des chercheurs demander l’indice h d’un chercheur comme mesure de réussite, ou d’exprimer sa fierté ou son anxiété à l’égard de son propre indice h. L’indice H est régulièrement utilisé pour évaluer (et surtout pour sélectionner) également les candidats à des emplois universitaires. Il a aussi ses inconvénients. Il est difficile de comparer les h-index dans tous les domaines, la mesure masque la contribution d’un individu dans les articles co-écrits, et elle fait abstraction du succès scientifique de son mérite intellectuel – le contenu réel des articles en question.

Cela rend h-index parfaitement compatible avec la vie à l’ère de Google. D’une part, Google Scholar a été une aubaine pour son influence, car il automatise le processus de comptage des citations. Mais pour un autre, Google a aidé à normaliser le comptage des références en tant que moyen général de mesurer la pertinence et la valeur des informations de toutes sortes, ce qui rend le processus moins arbitraire et clinique lorsqu’il est utilisé par des universitaires. Les geeks ont apporté le numérisme obsessionnel aux masses.

Au lieu de mesurer le succès des chercheurs, le répertoire Classic Papers de Google Scholar définit le canon par la distance dans le temps. 2006 est une dizaine d’années, assez longue pour être difficile à retenir dans son intégralité pour ceux qui l’ont vécu, mais assez récente que Google avait trouvé ses jambes traquant la recherche savante (le service Scholar lancé en 2004). Les papiers classiques, en d’autres termes, sont plus classiques pour Google que pour l’humanité en gros.

Dans l’académie d’aujourd’hui, les universitaires maintiennent leur statut professionnel en raison de la quantité et de la réglementation de leur productivité – ce qui fait que Hirsch se moque des brillants one-offs. Souvent, cela signifie que le travail universitaire est produit non pas à cause de besoins sociaux, industriels ou même cosmiques, mais parce que les roues de la productivité académique doivent sembler tourner. Faire pression vers de nouvelles méthodes ou découvertes est toujours apprécié, mais c’est un travail difficile et risqué. Au lieu de cela, les chercheurs qui répondent à des conditions spécifiques et actuelles dans le contexte de leurs domaines ont tendance à être plus performants lorsqu’ils sont mesurés sur le calendrier des évaluations de performance.

En examinant les articles les plus cités en 2006, comme le font les articles classiques de Google Scholar, ils révèlent surtout comment les chercheurs ont réussi à ce pari, intentionnellement ou non. Par exemple, le l’article le plus cité dans le film est «La complexité narrative dans la télévision américaine contemporaine», par le chercheur en études télévisuelles du Middlebury College, Jason Mittell. Mittell a été l’un des premiers critiques à expliquer la montée de la télévision en tant que haute culture, en particulier via des feuilletons socialistes réalistes avec des récits complexes, comme The Sopranos. La prise de Mittell était à la fois raisonnée et opportune, alors que des émissions comme Deadwood, Big Love et The Wire appréciaient leurs tournées quand il a écrit le journal. Cette tendance s’est poursuivie sans interruption pendant la décennie qui a suivi, faisant de l’article de Mittell une citation populaire.

De même, l’article de 2006 le plus cité dans l’histoire est «L’histoire peut-elle être open source? Wikipédia et l’avenir du passé », par Roy Rosenzweig. L’article propose un historique et une explication de Wikipédia, ainsi qu’une évaluation de la qualité et de l’exactitude du site Web en tant que dossier historique (bon et mauvais, il s’avère). Comme pour la télévision complexe, la popularité du journal de Rosenzweig tient en grande partie aux accidents de origine. Wikipédia a été lancé en 2001 et, en 2005, il avait commencé à exercer un impact significatif sur l’enseignement et la recherche. L’histoire a une relation unique avec les connaissances encyclopédiques, donnant au domaine un rôle évident dans l’analyse comparative du site. L’article de Rosenzweig discute même du rôle des méthodes d’indexation de Google pour aider à améliorer l’apparence de Wikipédia dans les résultats de recherche, et la tentation qui en résulte chez les étudiants d’utiliser Wikipédia comme première source. Comme dans le cas de Mittell, ces circonstances n’ont fait que s’amplifier au cours des dix années qui ont suivi la publication du journal, renforçant son influence.

Cette tendance se poursuit dans les domaines techniques. En vision par ordinateur, par exemple, une méthode d’identification du sujet des images est le papier le plus cité. La reconnaissance et la classification des images devenaient de plus en plus importantes en 2006, et la technique décrite dans l’article, appelée correspondance spatiale des pyramides, reste importante en tant que méthode de correspondance des images. Une fois de plus, conseil seo Lille Google lui-même reste un bénéficiaire évident des méthodes de vision par ordinateur.

Prétendre que ces papiers «résistent à l’épreuve du temps», comme le fait Henderson, est suspect. Au lieu de cela, ils montrent que la bourse la plus populaire est celle qui est arrivée à trouver un achat sur une tendance actuelle ou émergente, juste au moment où elle devenait une préoccupation pour un grand groupe de personnes dans un domaine, et pour qui cet intérêt s’est amplifié. plutôt que dissipé. Dans une décennie, les journaux n’ont pas résisté à l’épreuve du temps au point de prouver, rétrospectivement, avoir pris le bon pari au bon moment – où ce moment correspond aussi directement à l’ère de l’ascendance et de la domination de Google.

* * *

PageRank et Classic Papers révèlent la théorie de la connaissance de Google: ce qui vaut la peine d’être connu est ce qui se rapporte le mieux à ce qui est déjà connu pour être digne d’être connu. Étant donné un système qui interprète la valeur par la visibilité de quelque chose, que ce soit un document académique ou une page Web, les ressources précieuses sont toujours celles qui sont les plus proches de celles qui ont déjà prouvé leur valeur.

Google profite de la les avantages de ce raisonnement autant que quiconque. Lorsque Google dit aux gens qu’il a trouvé les articles scientifiques les plus durables sur un sujet, par exemple, le public croit probablement cette histoire parce qu’il pense également que Google a tendance à trouver les bonnes réponses.

Mais après réflexion, de nombreuses recherches sur Google ne produisent pas de réponses, de produits, d’entreprises ou d’idées satisfaisants. Au lieu de cela, ils ont tendance à pointer vers d’autres lieux de grande réputation, comme Wikipedia et Amazon, avec lesquels le public a également développé une relation de confiance non examinée. Lorsque les informations, les produits et les ressources des listes Google ne fournissent pas de solution au problème recherché par le demandeur, l’utilisateur a deux options. Soit continuer à chercher avec des termes et conditions de plus en plus précis dans l’espoir d’être conduit à des réponses plus pertinentes, soit hausser les épaules et cliquer sur les liens fournis, résolu à prendre ce qui a été donné. La plupart choisissent ce dernier.

Cette manière de consommer des informations et des idées s’est également répandue partout ailleurs. le les marchandises qui valent la peine d’être achetées sont celles qui sont expédiées via Amazon Prime. Les publications Facebook qui valent la peine d’être vues sont celles qui apparaissent dans le fil d’actualité. Les nouvelles qui valent la peine d’être lues sont celles qui semblent être exploitées. Et comme des services comme Facebook, Twitter et Instagram incorporent des méthodes algorithmiques de tri des informations, comme Google l’a fait pour la recherche, tous ces goûts et clics et recherches et hashtags et les autres deviennent des votes – des recommandations qui se combinent les unes aux autres pour produire une sortie juste à côté vertu d’avoir eu suffisamment raison auparavant.

C’est comme si Google, l’entreprise qui avait promis d’organiser et de rendre accessible les informations du monde, avait fait le contraire. Presque tout peut être publié, publié ou vendu en ligne aujourd’hui, mais la plupart ne sont pas visibles. Au lieu de cela, les informations restent cachées, pénalisées pour n’avoir pas été suffisamment connectées à d’autres informations plus populaires. Mais penser différemment est si rare, l’idée de le faire pourrait même ne pas surgir – pour les acheteurs et citoyens autant que pour les universitaires. Toutes les informations sont universellement accessibles, mais certaines informations sont plus universellement accessibles que d’autres.