« Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... »
Dan Ariely – Duke University
Ce site présentera les étapes d’un projet réalisé dans le cadre du Master 1 d'ingénierie linguistique (domaine du TAL- Traitement Automatique des Langues) des universités Paris III/Paris X/INALCO.
L’objectif de ce projet consiste, dans un premier temps, à mettre en œuvre une chaine de traitement textuel semi-automatique qui sera capable de traiter des données multilingues extraites de pages web que l’on aura choisi au préalable. Cette chaine de traitement sera crée à partir d’un programme écrit en bash. Elle traitera les données de chaque page web et les présentera sous forme d’un tableau HTML qui sera généré par le même programme.
Dans un deuxième temps, nous utiliserons des outils informatiques qui nous permettront de faire une analyse linguistique à partir des données obtenues. A cette étape du projet, l’objectif est de trouver les cooccurrents – c’est-à-dire les occurrences d’un ou plusieurs mots dans un même énoncé – de l’expression que nous avons choisi de travailler, à savoir, Big Data.
CARENCE Glicia – Licence Lettres parcours linguistique (Université de L’Etat de São Paulo), Master FLE Français Langue Etrangère (Université Paris X), M1 Ingénierie linguistique – TAL (Université Paris III).
HERNANDEZ Nidia – Licence Lettres parcours linguistique (Université de Buenos Aires), M1 Ingénierie linguistique – TAL (Université Paris X).
ZHANG Xianfan – Licence Langue et littérature française (Université Renmin de Chine 中国人民大学), Licence Sciences du langage (Université Paris III), M1 Ingénierie linguistique – TAL (Université Paris III).
Analyser le contexte linguistique de l’expression « big data » dans 5 langues : français, anglais, espagnol, portugais et chinois…
A partir des données obtenues, repérer les (possibles) différences d’utilisation de cette même expression dans chacune de langues choisies.
Petite définition Wikipédia: Les Big Data, littéralement les « grosses données », ou « mégadonnées », parfois appelées données massives, désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.
D’une part, nous avons un sujet très en vogue → Le big data est devenu une préoccupation majeure des chercheurs et des professionnels, aussi bien dans le domaine de l’informatique comme dans d’autres secteurs qui génèrent et analysent des données. C’est donc un terme qui soulève des questions et des problèmes contemporains, amplement cité et discuté sur le web. Voilà une raison non négligeable qui a attiré notre attention.
D’autre part, nous avons un champ sémantique (apparement) réduit → A la première vue, nous nous sommes dit que le champ sémantique lié à l’expression « big data » serait peut-être très succinct. Néanmoins, étant donné les différences socioculturelles autours de chaque langue, nous espérions cerner quelques divergences d’emploi du terme. Le fondement linguistique étant tout de même le point le plus important dans le traitement automatique de textes – et conséquemment, dans le développement de notre projet – nous avons choisi de travailler sur des urls en 5 langues, à fin de collecter le maximum de données possibles pour l’analyse linguistique.
Les modifications apportées au script de base – réalisé pendant les séances du cours « Projet encadré » – ont été faites surtout au niveau du code HTML pour la création du tableau d’urls. Nous avons utilisé une feuille de style CSS disponibilisée par Bootstrap, un Framework crée par Twitter et très utile à la création de sites et d’applications web. Nous l'avons également utilisé pour la création de ce site.
Pour en savoir plus sur les étapes d’écriture du script, vous pouvez vous rendre sur le blog du projet, où nous expliquons plus en détails le déroulement des séances du cours et l'avancement de chaque phase du script.
Ci-dessous une capture d’écran. Script complet consultable ici.
Les logiciels disponibles en ligne pour l'élaboration de nuages de mots sont nombreux et d’une utilisation assez intuitive. Certains sont ciblés vers l’obtention d’une représentation linguistique pertinente, d’autres vers un rendu graphique captivant. Ainsi, les premiers incluent par défaut une liste de mots grammaticaux à ne pas tenir en compte dans le produit final (pour les logiciels n’ayant pas cette option, l’exclusion des mots grammaticaux a dû être effectué manuellement en les effaçant du texte donné en entrée).
Bien évidemment, les mots à exclure changent selon la langue et, malheureusement, l’adaptation de ces logiciels a différentes langues est limitée et parfois même pas possible (à part l’anglais). Dans le cas du chinois en particulier, probablement à cause de la difficulté de segmentation qui représente la scripta continua, le nombre de logiciels de génération de nuages de mots est très limité.
Pour l'élaboration des nuages nous avons utilisé les outils suivants: Tagul, Wordcloud, Wordle, Worditout, Treecloud et Tagcrowd.
Vous trouverez ci-après les résultats obtenus pour chaque langue:
Le trameur est un logiciel développé par M. Serge Fleury et qui permet de faire de la lexicométrie et de la statistique textuelle. L’utilisation de ce logiciel a constitué la dernière phase de notre projet, dans laquelle nous avons effectué l’analyse statistique des occurrences et des cooccurrences des formes de l’expression « big data » en français, anglais, chinois, portugais et espagnol.
Avant de traiter les fichiers avec le Trameur, il a été nécessaire d’effectuer un « nettoyage » du corpus à fin d’harmoniser les données:
Dans le corpus en anglais, d’un total de 478 formes repérées par le Trameur, les cooccurrents les plus fréquents sont
« analytics » et « security », suivis de « ways » et « project ». Cela pourrait s’expliquer par l’augmentation incessante des masses d’information produites par les entreprises, d’où le besoin de trouver des nouvelles stratégies commerciales: Comment interpréter (analyser) ces données? Comment protéger ces informations de la concurrence? Comment en tirer profit ?
Les domaines d’application de l'analyse big data cités dans le corpus étant fort divers, ils n’ont pas été généralement retenus comme cooccurrents, à l’execption de « medecine ».
Une cooccurrence inattendue a été trouvée, il s’agit de l’année « 2013 ». Étant donnée que le corpus a été constitué en 2015, nous avons pris le soin d’exclure cette date de la recherche à l’aide la fonction « stop-list » et nous n’attendions pas trouver d’autre dates citées fréquemment dans le texte. Il faudrait donc des analyses postérieures pour trouver l’explication à cette corrélation (que s’est-il produit dans le domaine du traitement de données en 2013 ?).
Le mot « big data » est traduit en chinois par « 大数据 », mais dans certains cas on utilise également le mot en anglais. Avant de traiter le corpus du chinois avec le Trameur (et les outils de génération de nuages), il a été nécessaire de régler deux difficultés : I) Comme en chinois l’écriture est en continuum, nous avons utilisé un logiciel de segmentation qui renvoie un texte dont les mots sont séparés par des espaces ; II) L’expression « big data » en anglais est récupérée comme deux mots par le Trameur, ainsi que par les outils de création de nuages. Par conséquent, avant de charger le corpus, nous avons remplacé toutes les suites qui correspondaient à « big data » par « BIGDATA ».
Le Trameur a retenu les mots qui apparaissent 5 fois à côté de « big data » (en chinois et en anglais), et dont l'indice de spécificité est de 5. Bien que la forme chinoise de « big data » se présente beaucoup plus fréquemment que la forme anglaise, le Trameur extrait plus de cooccurrences en anglais. Les mots grammaticaux tels que « is », « for » et « which » se présentent fréquemment avec « big data » dans les textes chinois. Ce sont normalement des citations.
En chinois on utilise rarement les mots d'emprunt en leur forme d'origine. Ils ont forcément une traduction. Mais dans notre corpus, le mot « big data » se présente aussi plusieurs fois avec les mots en chinois et est utilisé directement en anglais dans une phrase chinoise. Ce phénomène existe également en français, espagnol et portugais.
La plupart des mots liés à « big data » (en anglais) dans le corpus chinois, sont des noms qui indiquent une application technique : 卫星 – satellite, 动物园 – zoo, 顾客 – client, 竞选 – élection, 买 – acheter). Le mot 大数据 (big data en chinois) se présente fréquemment avec les mots suivants: 创新 – innovation, 推动 – pousser, 国家 – pays, 安全 – sécurité, 开放 – l'ouverture, 资源 – ressources, 发展 – développement. Nous supposons que dans les articles qui font référence à l’application ou les techniques de big data, on utilise plus souvent le mot en anglais.
Dans le corpus en langue espagnole, nous avons deux formes à analyser : « big data » et sa traduction « datos masivos ». À partir du grand écart entre le nombre total d’occurrences de la première forme (400) et de la deuxième (74), on constate une nette préférence pour l’emprunt direct de l’anglais. D’ailleurs, la présence de « datos masivos » parmi les cooccurrents de « big data » permet d’inférer qu’il est utilisé pour des raisons stylistiques comme par exemple, éviter la répétition.
Bien que l’analyse de cooccurrences ne s’intéresse pas normalement aux mots grammaticaux, il n’est pas possible de négliger la discordance au niveau des articles : même si la traduction en espagnol est une expression au pluriel, le terme
« big data » est précédé de l’article singulier. Cela implique que, ce qui prévaut dans la conception de l’entité « big data » est l’idée d’une grande masse indifférenciée à l’idée du rassemblement d’unités (hypothèse renforcée par le présence du cooccurrent « masse »).
Quant aux cooccurrences lexicales, la traduction en espagnol est le plus souvent accompagnée de « revolución »,
« sociedad », « proyectos » suivi de l’emprunt en anglais « analytics », « moda », « masa », « mitos » et « cloud ». On retrouve également avec une certaine fréquence le nom et prénom d’un auteur d’un livre sur le big data. On observe qu’en général le champ sémantique des mots autour de « big data » relève de la nouveauté, ce qui suggère qu’il est encore vu plus comme un phénomène d’actualité que comme une ressource économique.
Le corpus du français présente un nombre peu significatif d’occurrences de la traduction « données massives » (un total de 4), donc elle a été exclue de l’analyse. L’autre traduction possible, « mégadonnées », présente également une fréquence d’apparition assez faible (13 résultats).
Comme dans le cas de l’espagnol, la distribution contextuelle de l’emprunt et de sa traduction répond à des raisons stylistiques. Si on laisse de côté les cooccurrences de « du » et « le » (la normalisation du corpus français s’est avérée spécialement difficile en raison des nombreuses allomorphies), les mots le plus souvent trouvés dans le contexte de « big data » sont « analytics » et « projet ».
Les domaines d’applications du big data étant vaste, ils couvrent un éventail lexical difficile à cerner : on observe entre les cooccurrents des mots variés (« européene », « mythes », « plateforme », « meilleure ») et avec des indices de cooccurrences relativement bas.
En ce qui concerne le portugais, l’utilisation de l’emprunt est pratiquement entièrement généralisée (1 seule occurrence de « megadados » dans la totalité du corpus) de sorte que l’analyse de cooccurrences n’a pas été possible pour cette forme.
Les principaux cooccurrents lexicaux sont « soluções », « velocidade », « negócios » et « variedade ». On observe dans ce corpus l’existence de deux champs de cooccurrences : d’une part, ceux qui relèvent du monde de l’entreprise
(« soluções », « negócios », « projetos »), d’autre part ceux qui peuvent être plutôt rattachés à une description ou une explication du phénomène (« conceito », « veracidade », « lógica »). Comme il s’agit d’un terme relativement récent, il est possible que les articles du corpus essaient d’expliquer ce qu’est big data et de vanter son potentiel commercial.
Emprunt vs traduction
On constate une nette préférence pour l’emprunt directe de l’anglais en espagnol, en français et en portugais notamment, tandis que la traduction est plus fréquente en chinois. Cela n’est pas surprenant puisqu’il s’agit d’un terme appartenant au domaine de la technologie de l’information, qui est très prenant des mots d’origine anglo-saxonne. Ce qui nous a étonné c’est que la présence des formes traduites en espagnol est nettement supérieure à celles du français, bien que l’espagnol soit plus perméable aux emprunts que le français.
Cooccurrences
En lignes générales, le contexte lexical le plus souvent lié à l’expression appartient au vocabulaire du monde de l’entreprise : « solution », « projet » et « innovation ». La fréquence de ces mots dans le corpus pourrait s’expliquer surtout par l’engouement actuel autour du big data et par le nombre croissant d’entreprises qui cherchent à optimiser l’utilisation et l’analyse des données qu’elles génèrent.
Quant aux différences entre langues, il est à remarquer que les cooccurrences de domaines d’application plus concrets
(« security », « médecine », 卫星 – satellite, 竞选 – élection) se passent en anglais et en chinois (langues des sociétés qui se servent déjà du big data comme ressource ?). Dans les autres langues travaillées, on observe des cooccurrents qui suggèrent une certaine méfiance envers l’utilisation du big data: « moda », « mythes », « veracidade ». Il faudrait ré-effectuer ce travail ultérieurement pour vérifier s’il se produit des changements dans cette conception du big data en espagnol, français et portugais.