ENJEUX THÉORIQUES ET MÉTHODOLOGIQUES

L’objectif de ce projet encadré se résume fondamentalement aux quatre points suivants:
(1) il s’agit de comparer les statuts de notions équivalentes, dans les cultures immatérielles de locuteurs de langues diverses;
(2) cette comparaison s’effectuera sur la base des occurrences des signifiants de ces notions, au sein d’un corpus multilingue;
(3) ce corpus sera collecté sur le Web…
(4)… au départ des résultats d’un moteur de recherche.

Les enjeux théoriques pertinents à chacun de ces points sont sommairement abordés ci-après.

(1) L’idée que des notions équivalentes existent entre les cultures des sociétés humaines est-elle valide?

Cette question, éminemment complexe, dépasse le cadre de cette étude qui prendra pour postulat l’idée que les cultures des sociétés humaines ne sont pas incommensurables et que des notions équivalentes peuvent-être identifiées, d’une langue à l’autre, l’autorité de la lexicographie bilingue et la compétence des locuteurs polyglottes faisant foi.

(2-3) La linguistique de corpus appliquée au Web constitue-t-elle une approche méthodologique valide du point (1) ?

La linguistique de corpus appliquée au Web est une alternative originale à l’ethnographie: le moindre niveau d’exigence qualitative de cette approche se trouvant très largement compensé par l’immense quantité de données potentiellement recueillie par elle. Cette approche indirecte remédie également, en partie, au paradoxe de l’observateur, tel que défini par William Labov, c'est-à-dire aux distorsions que l’observation directe d’un phénomène social génère sur sa performance, à la faveur des biais cognitifs de ses participants (“acquiescence bias”, “socially desirable responses bias”, etc.).

Une réserve doit cependant être maintenue: dans quelle mesure le contenu du Web est-il représentatif de la culture d’une communauté linguistique?

Internet est un système global de télécommunication reposant sur une infrastructure colossale de câbles de cuivre et de fibre optique, de satellites et d’antennes relais, de routeurs et de serveurs, ainsi que sur un ensemble de protocoles logiciels (ethernet, IP, TCP, UDP, SMTP, DNS, etc.) et qui permet l’échange et le stockage d’information à très grande distance; le Web est, quant à lui, une application d’internet, développée par le Britannique Tim Berners-Lee, au début des années 1990, dans le contexte de l’ouverture d’internet au grand-public et aux sociétés commerciales par le gouvernement américain; le Web permet la consultation et la publication de documents multimédias, organisés en une “toile” virtuellement infinie de liens hypertexte. Or le coût d'acquisition et de maintenance très élevé de cette infrastructure matérielle du réseau internet est la cause d’inégalités prononcées d’accès au Web, entre les régions pauvres et riches du monde contemporain (près de 90% d’internautes parmi les habitants de l’Amérique du Nord contre moins de 40% en Afrique):

Pourcentage d'internautes par pays (en proportion de la population du pays), en 2012

Il convient donc d’apprécier le fait que, dans le cas des régions du monde aux taux d'accès les plus faibles, le contenu Web produit par les internautes ne sera que peu représentatif de la culture de ces sociétés dans leur ensemble, n’étant l’oeuvre que d’une minorité privilégiée et homogène de sa population.

Mais le problème inverse se rencontre également, lorsque cette même problématique est envisagée sous l’angle, (pertinent pour ce projet), des langues du Web: les statistiques mesurées par la plateforme W3Techs indiquent, en effet, qu’à la date du 21 octobre 2019 près de 55% du Web était en langue anglaise! (N.B. La méthodologie de ce calcul est complexe et contestable, elle n’en offre pas moins un ordre d’idée). À la deuxième place, le russe n'est ainsi la langue que de 7% des pages du Web, dont le français, avec 3,7% du contenu global, ne serait que la cinquième langue...

Une telle disproportion permet d’envisager qu’une part importante des contenus de langue anglaise puisse être inauthentique, car produite par les locuteurs natifs d’autres langues, représentant d’autres cultures et n’utilisant l’anglais que comme une langue véhiculaire. Cette problématique s'étend de surcroît, quoique dans une mesure variable et sous d'autres modalités, à l’ensemble des langues transnationales (arabe, espagnol, français, portugais, voire russe et allemand, outre l’anglais) dont les locuteurs sont susceptibles d’appartenir à des sociétés et des cultures fondamentalement distinctes (sociétés comorienne et qatari, par exemple, pour la langue arabe, espagnole ibérique et bolivienne, etc.).

Il conviendra donc de garder à l’esprit ces disparités d'accès au Web et leur impact sur la représentativité du corpus collecté, lors de son analyse, et de restreindre, autant que possible, en amont de la collecte, l’origine géographique des pages consultées pour les langues transnationales.

Enfin, (4) les résultats des moteurs de recherche sont-ils à leur tour des représentations fidèles du contenu du Web produit par une communauté linguistique?

Une réponse à cette question exige une présentation préalable des modes de fonctionnement des moteurs de recherche contemporains.

(Histoire minimale des moteurs de recherche et fonctionnement contemporain)

Le Web primordial ne disposait d’aucun moteur de recherche et des listes de serveurs, établies manuellement, servaient d’interface à son exploration. Les premiers moteurs de recherche, apparus en 1993, résultèrent de l’agrégation de ces listes en ontologies thématiques et de la création de scripts permettant d’effectuer des recherches par mot-clef, en leur sein. Quoique le premier robot d’exploration automatique (crawler, en anglais) du contenu du Web, capable de parcourir la toile, de lien en lien, sans assistance, ait été développé en 1993 et que des moteurs de recherche soient apparus, cette année-là, qui faisaient usage de cette technologie, les faibles dimensions du Web et le caractère primitif et peu fiable de ces algorithmes garantirent la survie et le succès de l’indexation manuelle jusqu’aux premières années du XXI ème siècle, que cette indexation ait été le fruit d’un travail salarié, comme dans le cas du moteur de recherche Yahoo! et de son millier d’“indexeurs” professionnels, employés à plein temps, ou participative et bénévole, comme dans le cas du moteur de recherche LYCOS, partenaire de l’Open Directory Project.

L’indexation automatique du contenu du Web devait cependant triompher de l’indexation manuelle, à la faveur de la croissance exponentielle du World Wide Web, à l’orée des années 2000, et d’avancées algorithmiques qui devaient découler des travaux de Robin Li (futur fondateur de Baidu), en 1996, et de Larry Page et Sergei Brin (futurs fondateurs de Google), en 1998, qui permettaient, pour la première fois, d’estimer la qualité d’une page Web sur la base de l’analyse récursive du nombre des pages dirigeant vers elle et de leur qualité. Au tournant des années 2000, également, l’éclatement de la bulle internet fut suivi d’une frénésie de fusions et d’acquisitions qui réduisit considérablement la diversité des acteurs de la recherche Web et vit s’amorcer l’inexorable ascension du moteur de recherche Google. Une vidéo représentant l'évolution dans le temps de la popularité des moteurs de recherche, de l'année 1994 à l'année 2019, peut être consultée à ce lien.

En 2019, les principaux moteurs de recherche dont les robots d’exploration parcourent le Web sont donc Google (multilingue), Baidu (monolingue), Bing (multilingue), Soso (monolingue), Sogou (monolingue), Youdao (monolingue) et Yandex (multilingue). Des “pseudo-moteurs” existent également qui s’appuient sur les technologies et les index d’autres moteurs de recherche (Qwant, Yahoo! ou encore DuckDuckGo pour Bing; Ask.com pour Google). Un classement de ces moteurs pour l’année 2019 suit ce paragraphe.

Classement Alexa des moteurs de recherche pour l'année 2019 (source : Wikipedia)

Le fonctionnement des moteurs de recherche contemporains relève du secret industriel et est en évolution constante ; on le décrira ici, de manière sommaire, de la façon suivante:

(1. Exploration) (1.1) des robots d’exploration suivent, de manière récursive, les liens rencontrés sur les pages Web, au départ de sites pivots ou sur la base de requêtes d’indexation adressées aux moteurs de recherche par les administrateurs des sites eux-mêmes ; (1.2) toute exploration d’un site Web débute par le téléchargement du fichier robots.txt, établi par son administrateur et indiquant au robot d’exploration les pages du site qui lui sont accessibles; (on notera qu’en l’absence d’un tel fichier, le crawler est, par défaut, libre d’indexer l’intégralité du site); (1.3) les pages accessibles sont téléchargées, (1.4) un identifiant numérique unique leur est assigné;

(2. Indexation) les opérations d’indexation sont alors réalisées : le contenu textuel de chaque page Web est (2.1) tokenisé et (2.2) lemmatisé, voire “stemmé”, réduit à ses racines morphologiques, selon sa langue; (2.3) les mots vides de haute fréquence sont ignorés; (2.4) de multiples index sont alors mis à jour: un index documentaire inversé, associant à chacun des lemmes les identifiants des pages de leurs occurrences, un index d’intention, associant à des catégories d’intention (achat, information, etc.) l’identifiant de la page analysée, un index progressif (forward index, en anglais), associant à l’identifiant d’une page l’ensemble des tokens qui y figurent, un index de cache, associant à chaque identifiant une version compressée du code HTML de sa page, etc…

(3. Traitement des requêtes) Lorsqu’une recherche est effectuée, c’est sur ces index qu’elle s’opère. Des algorithmes complexes, mettant en jeu des techniques avancées d’intelligence artificielle, analysent la requête pour en identifier (3.1) le contenu et (3.2) l’intention (l’historique de navigation de l’utilisateur et sa géolocalisation sont potentiellement pris en considération, ainsi que sa langue); (3.3) le moteur de recherche identifie toutes les pages pertinentes de ses index et (3.4) exécute plusieurs centaines d’opérations logiques pour produire un classement de ces résultats : analyse de la fréquence des mots-clefs, du contexte de leur occurrence (titre, url, paragraphe, etc.), de la présence de synonymes de ces mots-clefs, prise en compte de la qualité de la page (nombre de liens dirigeant vers elle, mise en forme, page originale ou duplicata d’autres documents, fréquence de mise à jour, etc.); un score de pertinence est ainsi assigné à chaque page et les résultats sont présentés dans l’ordre décroissant de ces notes.

Sur la base de ces informations, les résultats des moteurs de recherche sont-ils représentatifs du contenu du Web ?

La réponse apportée doit être négative.

En effet, (1) si l'exploration automatique du Web par les moteurs de recherche contemporains peut être envisagée comme un gage d'objectivité et la promesse d'un inventaire exhaustif des contenus publiques du Web, (en opposition à l'indexation manuelle), la réalité est plus nuancée : une part colossale des contenus publics du Web échappe fatalement aux robots d’exploration, tels que décrits précédemment. Cette part consiste en l’ensemble des contenus organisés en bases de données et dont l’accès repose sur l’envoi de formulaires HTML et la génération dynamique de pages de résultats. De telles données sont, en principe, inaccessibles aux robots d’exploration qui, par défaut, ne peuvent indexer que des pages aux URL statiques; cette part gigantesque du Web est généralement désignée sous le nom de Web profond (deep Web, en anglais), par opposition au Web de surface (surface Web), termes inventés par le chercheur Michael K. Bergman dans un article publié en août 2001 ; ce chercheur estimait alors les dimensions du Web profond à plus de 500 fois celles du Web de surface et mettait en avant sa supériorité qualitative.

Métaphore du Web iceberg

En outre, (2) la variété et l'opacité des paramètres pris en compte par les moteurs de recherche dans le traitement des requêtes et la variabilité même de certains de ces paramètres (heure de la journée, saison, type de navigateur, système d'exploitation, etc.) ainsi que la mise en jeu d'algorithmes complexes d'intelligence artificielle dans la détermination des intentions sous-jacentes aux requêtes sont la cause de constantes variations dans les résultats de ces recherches qui trahissent une représentation partiale et partielle des contenus du Web par ces moteurs.

Google omet, par défaut, de nombreux résultats sur la base de critères de pertinence opaques.

CONCLUSION

Au terme de cette analyse, quelles solutions doivent-elles être envisagées pour contourner ces apories ?

Quatre mesures semblent devoir être prises, dans la mesure du possible, dans la conduite de ce projet, pour contourner les difficultés évoquées :

(1) restreindre cette étude à des langues dont on estime que la moitié, au moins, de leurs locuteurs a accès au Web;

Pourcentage d'internautes par pays (en proportion de la population du pays), en 2012

(2) recourir aux options avancées des moteurs de recherche, notamment pour restreindre les aires géographiques de provenance des URL collectées, dans le cas des langues pluricentriques/plurinationales;

Éléments de syntaxe de recherche avancée pour le moteur Bing

(3) placer les mots-clefs entre guillemets, pour tenter de neutraliser les algorithmes de détection d’intention déployés par les moteurs de recherche, (les résultats semblent alors remarquablement plus divers et pertinents pour l'anthropologie linguistique) ;

*Résultats avec et sans guillemets pour le mot syndicat (Google)*

(4) rassembler de multiples collectes de liens effectuées au départ de plusieurs des moteurs dominants (à l’exclusion des “pseudo-moteurs”), en réalisant, éventuellement, plusieurs collectes, espacées dans le temps, pour chacun de ces moteurs, tout en prenant garde de supprimer les URL en doublon. L'union fait la force !