big data nuage
#BigData
Les données dans les nuages

Accueil


« Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... »

Dan Ariely – Duke University



Soyez les bienvenus !


Ce site présentera les étapes d’un projet réalisé dans le cadre du Master 1 d'ingénierie linguistique (domaine du TAL- Traitement Automatique des Langues) des universités Paris III/Paris X/INALCO.


L’objectif de ce projet consiste, dans un premier temps, à mettre en œuvre une chaine de traitement textuel semi-automatique qui sera capable de traiter des données multilingues extraites de pages web que l’on aura choisi au préalable. Cette chaine de traitement sera crée à partir d’un programme écrit en bash. Elle traitera les données de chaque page web et les présentera sous forme d’un tableau HTML qui sera généré par le même programme.


Dans un deuxième temps, nous utiliserons des outils informatiques qui nous permettront de faire une analyse linguistique à partir des données obtenues. A cette étape du projet, l’objectif est de trouver les cooccurrents – c’est-à-dire les occurrences d’un ou plusieurs mots dans un même énoncé – de l’expression que nous avons choisi de travailler, à savoir, Big Data.


Qui sommes-nous ?


CARENCE Glicia – Licence Lettres parcours linguistique (Université de L’Etat de São Paulo), Master FLE Français Langue Etrangère (Université Paris X), M1 Ingénierie linguistique – TAL (Université Paris III).


HERNANDEZ Nidia – Licence Lettres parcours linguistique (Université de Buenos Aires), M1 Ingénierie linguistique – TAL (Université Paris X).


ZHANG Xianfan – Licence Langue et littérature française (Université Renmin de Chine 中国人民大学), Licence Sciences du langage (Université Paris III), M1 Ingénierie linguistique – TAL (Université Paris III).

Présentation


Notre projet


Analyser le contexte linguistique de l’expression « big data » dans 5 langues : français, anglais, espagnol, portugais et chinois…
A partir des données obtenues, repérer les (possibles) différences d’utilisation de cette même expression dans chacune de langues choisies.


Le choix du sujet


Petite définition Wikipédia: Les Big Data, littéralement les « grosses données », ou « mégadonnées », parfois appelées données massives, désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.


D’une part, nous avons un sujet très en vogue → Le big data est devenu une préoccupation majeure des chercheurs et des professionnels, aussi bien dans le domaine de l’informatique comme dans d’autres secteurs qui génèrent et analysent des données. C’est donc un terme qui soulève des questions et des problèmes contemporains, amplement cité et discuté sur le web. Voilà une raison non négligeable qui a attiré notre attention.


D’autre part, nous avons un champ sémantique (apparement) réduit → A la première vue, nous nous sommes dit que le champ sémantique lié à l’expression « big data » serait peut-être très succinct. Néanmoins, étant donné les différences socioculturelles autours de chaque langue, nous espérions cerner quelques divergences d’emploi du terme. Le fondement linguistique étant tout de même le point le plus important dans le traitement automatique de textes – et conséquemment, dans le développement de notre projet – nous avons choisi de travailler sur des urls en 5 langues, à fin de collecter le maximum de données possibles pour l’analyse linguistique.

Script


Pour embellir notre tableau


Les modifications apportées au script de base – réalisé pendant les séances du cours « Projet encadré » – ont été faites surtout au niveau du code HTML pour la création du tableau d’urls. Nous avons utilisé une feuille de style CSS disponibilisée par Bootstrap, un Framework crée par Twitter et très utile à la création de sites et d’applications web. Nous l'avons également utilisé pour la création de ce site.


Pour en savoir plus sur les étapes d’écriture du script, vous pouvez vous rendre sur le blog du projet, où nous expliquons plus en détails le déroulement des séances du cours et l'avancement de chaque phase du script.


Ci-dessous une capture d’écran. Script complet consultable ici.



screenshot script partie 3

Tableaux


Tableau n°1 - anglais.txt

NuméroURLPages AspiréesCurlEncodageDump initialDump utf-8Contextes egrepContextes HTMLFq motif
1lien10UTF-8
-dump-1contexte-1contexte-111
2lien20UTF-8
-dump-2contexte-2contexte-21
3lien30UTF-8
-dump-3contexte-3contexte-350
4lien40UTF-8
-dump-4contexte-4contexte-41
5lien50UTF-8
-dump-5contexte-5contexte-51
6lien60UTF-8
(charset extrait)
dump-6dump-6contexte-6contexte-64
7lien70UTF-8
-dump-7contexte-7contexte-720
8lien80UTF-8
-dump-8contexte-8contexte-81
9lien90UTF-8
-dump-9contexte-9contexte-919
10lien100UTF-8
-dump-10contexte-10contexte-105
11lien110UTF-8
-dump-11contexte-11contexte-1116
12lien120UTF-8
-dump-12contexte-12contexte-124
13lien130UTF-8
-dump-13contexte-13contexte-139
14lien140WINDOWS-1252dump-14dump-14contexte-14contexte-1428
15lien150UTF-8
-dump-15contexte-15contexte-155
16lien160UTF-8
-dump-16contexte-16contexte-1612
17lien170UTF-8
-dump-17contexte-17contexte-179
18lien180UTF-8
-dump-18contexte-18contexte-181
19lien190UTF-8
-dump-19contexte-19contexte-1920
20lien200UTF-8
-dump-20contexte-20contexte-2023
21lien210UTF-8
-dump-21contexte-21contexte-218
22lien220UTF-8
-dump-22contexte-22contexte-225
23lien230UTF-8
-dump-23contexte-23contexte-2311
24lien240UTF-8
-dump-24contexte-24contexte-241
25lien250pas de charset...-- -  -  - 
26lien260UTF-8
-dump-26contexte-26contexte-2618
27lien270UTF-8
-dump-27contexte-27contexte-2720
28lien280UTF-8
-dump-28contexte-28contexte-2822
29lien - 8 -  -  -  -  -  - 
30lien300UTF-8
-dump-30contexte-30contexte-3023
31lien310UTF-8
-dump-31contexte-31contexte-310
32lien320UTF-8
-dump-32contexte-32contexte-3221
33lien330UTF-8
-dump-33contexte-33contexte-3324
34lien340UTF-8
-dump-34contexte-34contexte-3412
35lien350UTF-8
-dump-35contexte-35contexte-356
36lien360WINDOWS-1252dump-36dump-36contexte-36contexte-3626
37lien370UTF-8
-dump-37contexte-37contexte-3720
38lien380UTF-8
-dump-38contexte-38contexte-3817
39lien390UTF-8
-dump-39contexte-39contexte-3919
40lien400UTF-8
-dump-40contexte-40contexte-4011
41lien410UTF-8
-dump-41contexte-41contexte-4125
42lien420UTF-8
-dump-42contexte-42contexte-4222
43lien430UTF-8
-dump-43contexte-43contexte-4323
44lien440UTF-8
-dump-44contexte-44contexte-4418
45lien450UTF-8
-dump-45contexte-45contexte-450
46lien460UTF-8
-dump-46contexte-46contexte-4612
47lien - 8 -  -  -  -  -  - 
48lien480UTF-8
-dump-48contexte-48contexte-481
49lien490UTF-8
-dump-49contexte-49contexte-494
50lien500UTF-8
-dump-50contexte-50contexte-505
 Fichier DUMP
global

47 fichier(s)
Fichier CONTEXTES
global

47 fichier(s)

Tableau n°2 - chinois.txt

NuméroURLPages AspiréesCurlEncodageDump initialDump utf-8Contextes egrepContextes HTMLFq motif
1lien10UTF-8
-dump-1contexte-1contexte-188
2lien20UTF-8
-dump-2contexte-2contexte-221
3lien30UTF-8
-dump-3contexte-3contexte-312
4lien40UTF-8
-dump-4contexte-4contexte-421
5lien50UTF-8
-dump-5contexte-5contexte-53
6lien60UTF-8
-dump-6contexte-6contexte-66
7lien70UTF-8
-dump-7contexte-7contexte-74
8lien80UTF-8
-dump-8contexte-8contexte-816
9lien90GB18030dump-9dump-9contexte-9contexte-90
10lien100UTF-8
-dump-10contexte-10contexte-107
11lien110GB18030dump-11dump-11contexte-11contexte-110
12lien120GB18030dump-12dump-12contexte-12contexte-120
13lien130GB18030dump-13dump-13contexte-13contexte-130
14lien140UTF-8
-dump-14contexte-14contexte-1412
15lien150UTF-8
-dump-15contexte-15contexte-1520
16lien160UTF-8
-dump-16contexte-16contexte-168
17lien170UTF-8
-dump-17contexte-17contexte-17128
18lien180UTF-8
-dump-18contexte-18contexte-189
19lien190GB18030dump-19dump-19contexte-19contexte-190
20lien200UTF-8
-dump-20contexte-20contexte-205
21lien210GB18030dump-21dump-21contexte-21contexte-210
22lien220UTF-8
-dump-22contexte-22contexte-226
23lien230UTF-8
-dump-23contexte-23contexte-2317
24lien240GB18030dump-24dump-24contexte-24contexte-240
25lien250UTF-8
-dump-25contexte-25contexte-257
26lien260UTF-8
-dump-26contexte-26contexte-2650
27lien270UTF-8
-dump-27contexte-27contexte-2735
28lien280UTF-8
-dump-28contexte-28contexte-2812
29lien290UTF-8
-dump-29contexte-29contexte-2917
30lien300UTF-8
-dump-30contexte-30contexte-3029
31lien310UTF-8
-dump-31contexte-31contexte-3112
32lien320UTF-8
-dump-32contexte-32contexte-3243
33lien330UTF-8
-dump-33contexte-33contexte-3312
34lien340UTF-8
-dump-34contexte-34contexte-3458
35lien350UTF-8
-dump-35contexte-35contexte-3520
36lien360UTF-8
-dump-36contexte-36contexte-3617
37lien370UTF-8
-dump-37contexte-37contexte-3723
38lien380UTF-8
-dump-38contexte-38contexte-3831
39lien390UTF-8
-dump-39contexte-39contexte-3912
40lien400UTF-8
-dump-40contexte-40contexte-409
41lien410UTF-8
-dump-41contexte-41contexte-4132
42lien420UTF-8
-dump-42contexte-42contexte-4227
43lien430UTF-8
-dump-43contexte-43contexte-438
44lien440UTF-8
-dump-44contexte-44contexte-4429
45lien450UTF-8
-dump-45contexte-45contexte-4562
46lien460UTF-8
-dump-46contexte-46contexte-465
47lien470UTF-8
-dump-47contexte-47contexte-4736
48lien480UTF-8
-dump-48contexte-48contexte-4816
49lien490UTF-8
-dump-49contexte-49contexte-496
50lien500UTF-8
-dump-50contexte-50contexte-5024
 Fichier DUMP
global

50 fichier(s)
Fichier CONTEXTES
global

50 fichier(s)

Tableau n°3 - espanol.txt

NuméroURLPages AspiréesCurlEncodageDump initialDump utf-8Contextes egrepContextes HTMLFq motif
1lien10UTF-8
-dump-1contexte-1contexte-114
2lien20UTF-8
-dump-2contexte-2contexte-26
3lien30UTF-8
-dump-3contexte-3contexte-315
4lien40UTF-8
-dump-4contexte-4contexte-44
5lien50UTF-8
-dump-5contexte-5contexte-510
6lien60UTF-8
-dump-6contexte-6contexte-65
7lien70UTF-8
-dump-7contexte-7contexte-713
8lien80UTF-8
-dump-8contexte-8contexte-88
9lien90UTF-8
-dump-9contexte-9contexte-96
10lien100UTF-8
-dump-10contexte-10contexte-105
11lien110UTF-8
-dump-11contexte-11contexte-1145
12lien120UTF-8
-dump-12contexte-12contexte-127
13lien130UTF-8
-dump-13contexte-13contexte-1310
14lien140UTF-8
-dump-14contexte-14contexte-1412
15lien150UTF-8
-dump-15contexte-15contexte-1511
16lien160UTF-8
-dump-16contexte-16contexte-1627
17lien170UTF-8
-dump-17contexte-17contexte-1718
18lien180UTF-8
-dump-18contexte-18contexte-1820
19lien190UTF-8
-dump-19contexte-19contexte-192
20lien200WINDOWS-1252dump-20dump-20contexte-20contexte-2016
21lien210UTF-8
-dump-21contexte-21contexte-214
22lien220UTF-8
-dump-22contexte-22contexte-224
23lien230UTF-8
-dump-23contexte-23contexte-2310
24lien240UTF-8
-dump-24contexte-24contexte-2412
25lien250UTF-8
-dump-25contexte-25contexte-250
26lien260UTF-8
-dump-26contexte-26contexte-267
27lien270UTF-8
-dump-27contexte-27contexte-2710
28lien280UTF-8
-dump-28contexte-28contexte-2821
29lien290UTF-8
-dump-29contexte-29contexte-298
30lien300UTF-8
-dump-30contexte-30contexte-3012
31lien310UTF-8
-dump-31contexte-31contexte-316
32lien320UTF-8
-dump-32contexte-32contexte-3210
33lien - 8 -  -  -  -  -  - 
34lien340UTF-8
-dump-34contexte-34contexte-3413
35lien350UTF-8
-dump-35contexte-35contexte-3510
36lien360UTF-8
-dump-36contexte-36contexte-3611
37lien370WINDOWS-1252dump-37dump-37contexte-37contexte-379
38lien380WINDOWS-1252dump-38dump-38contexte-38contexte-387
39lien390UTF-8
-dump-39contexte-39contexte-3920
40lien400UTF-8
-dump-40contexte-40contexte-4011
41lien410UTF-8
-dump-41contexte-41contexte-4130
42lien420UTF-8
-dump-42contexte-42contexte-4216
43lien430UTF-8
-dump-43contexte-43contexte-435
44lien440UTF-8
-dump-44contexte-44contexte-4411
45lien450UTF-8
-dump-45contexte-45contexte-456
46lien460UTF-8
-dump-46contexte-46contexte-4613
47lien470UTF-8
(charset extrait)
dump-47dump-47contexte-47contexte-470
48lien480UTF-8
(charset extrait)
dump-48dump-48contexte-48contexte-480
49lien490UTF-8
(charset extrait)
dump-49dump-49contexte-49contexte-490
50lien500UTF-8
(charset extrait)
dump-50dump-50contexte-50contexte-500
 Fichier DUMP
global

49 fichier(s)
Fichier CONTEXTES
global

49 fichier(s)

Tableau n°4 - francais.txt

NuméroURLPages AspiréesCurlEncodageDump initialDump utf-8Contextes egrepContextes HTMLFq motif
1lien10UTF-8
-dump-1contexte-1contexte-114
2lien20UTF-8
-dump-2contexte-2contexte-210
3lien30UTF-8
-dump-3contexte-3contexte-310
4lien40UTF-8
-dump-4contexte-4contexte-47
5lien50UTF-8
-dump-5contexte-5contexte-54
6lien60UTF-8
-dump-6contexte-6contexte-68
7lien70UTF-8
-dump-7contexte-7contexte-75
8lien80UTF-8
-dump-8contexte-8contexte-81
9lien90UTF-8
-dump-9contexte-9contexte-96
10lien100UTF-8
-dump-10contexte-10contexte-107
11lien110UTF-8
-dump-11contexte-11contexte-116
12lien120UTF-8
-dump-12contexte-12contexte-122
13lien130UTF-8
-dump-13contexte-13contexte-1315
14lien140WINDOWS-1252dump-14dump-14contexte-14contexte-143
15lien150UTF-8
-dump-15contexte-15contexte-1511
16lien160UTF-8
-dump-16contexte-16contexte-1614
17lien170UTF-8
-dump-17contexte-17contexte-177
18lien180UTF-8
-dump-18contexte-18contexte-1810
19lien190UTF-8
-dump-19contexte-19contexte-1917
20lien200UTF-8
-dump-20contexte-20contexte-2010
21lien210UTF-8
-dump-21contexte-21contexte-216
22lien220UTF-8
-dump-22contexte-22contexte-221
23lien230UTF-8
-dump-23contexte-23contexte-2313
24lien240UTF-8
-dump-24contexte-24contexte-244
25lien250UTF-8
-dump-25contexte-25contexte-256
26lien260WINDOWS-1252dump-26dump-26contexte-26contexte-269
27lien270WINDOWS-1252dump-27dump-27contexte-27contexte-275
28lien280UTF-8
-dump-28contexte-28contexte-2810
29lien290UTF-8
-dump-29contexte-29contexte-2910
30lien300UTF-8
-dump-30contexte-30contexte-302
31lien310UTF-8
-dump-31contexte-31contexte-317
32lien320UTF-8
-dump-32contexte-32contexte-323
33lien330UTF-8
-dump-33contexte-33contexte-3313
34lien340UTF-8
-dump-34contexte-34contexte-343
35lien350UTF-8
-dump-35contexte-35contexte-3513
36lien360UTF-8
-dump-36contexte-36contexte-364
37lien370UTF-8
-dump-37contexte-37contexte-377
38lien380UTF-8
-dump-38contexte-38contexte-386
39lien390UTF-8
-dump-39contexte-39contexte-3915
40lien400UTF-8
-dump-40contexte-40contexte-4011
41lien410UTF-8
-dump-41contexte-41contexte-4121
42lien420UTF-8
-dump-42contexte-42contexte-4220
43lien430UTF-8
-dump-43contexte-43contexte-4310
44lien440UTF-8
-dump-44contexte-44contexte-4412
45lien450UTF-8
-dump-45contexte-45contexte-455
46lien460UTF-8
-dump-46contexte-46contexte-4624
47lien470UTF-8
-dump-47contexte-47contexte-473
48lien480UTF-8
-dump-48contexte-48contexte-485
49lien490UTF-8
-dump-49contexte-49contexte-4916
50lien - 8 -  -  -  -  -  - 
51lien510UTF-8
-dump-51contexte-51contexte-5114
 Fichier DUMP
global

50 fichier(s)
Fichier CONTEXTES
global

50 fichier(s)

Tableau n°5 - portugais.txt

NuméroURLPages AspiréesCurlEncodageDump initialDump utf-8Contextes egrepContextes HTMLFq motif
1lien10UTF-8
-dump-1contexte-1contexte-142
2lien20UTF-8
-dump-2contexte-2contexte-211
3lien30WINDOWS-1252dump-3dump-3contexte-3contexte-329
4lien40UTF-8
-dump-4contexte-4contexte-421
5lien50WINDOWS-1252dump-5dump-5contexte-5contexte-52
6lien60UTF-8
-dump-6contexte-6contexte-614
7lien70UTF-8
-dump-7contexte-7contexte-711
8lien80UTF-8
-dump-8contexte-8contexte-863
9lien90UTF-8
-dump-9contexte-9contexte-913
10lien100WINDOWS-1252dump-10dump-10contexte-10contexte-103
11lien110UTF-8
-dump-11contexte-11contexte-1128
12lien - 4 -  -  -  -  -  - 
13lien130UTF-8
-dump-13contexte-13contexte-1319
14lien140UTF-8
-dump-14contexte-14contexte-149
15lien150UTF-8
-dump-15contexte-15contexte-1514
16lien160UTF-8
-dump-16contexte-16contexte-1619
17lien170UTF-8
-dump-17contexte-17contexte-1714
18lien180UTF-8
-dump-18contexte-18contexte-1811
19lien190UTF-8
-dump-19contexte-19contexte-198
20lien200UTF-8
-dump-20contexte-20contexte-2011
21lien210UTF-8
-dump-21contexte-21contexte-217
22lien220UTF-8
-dump-22contexte-22contexte-227
23lien230UTF-8
-dump-23contexte-23contexte-235
24lien240UTF-8
-dump-24contexte-24contexte-243
25lien250UTF-8
-dump-25contexte-25contexte-259
26lien260UTF-8
-dump-26contexte-26contexte-268
27lien270UTF-8
-dump-27contexte-27contexte-276
28lien280WINDOWS-1252dump-28dump-28contexte-28contexte-288
29lien290UTF-8
-dump-29contexte-29contexte-291
30lien300UTF-8
-dump-30contexte-30contexte-302
31lien310WINDOWS-1252dump-31dump-31contexte-31contexte-319
32lien320WINDOWS-1252dump-32dump-32contexte-32contexte-321
33lien330UTF-8
-dump-33contexte-33contexte-3313
34lien340UTF-8
-dump-34contexte-34contexte-3413
35lien350UTF-8
-dump-35contexte-35contexte-3512
36lien360UTF-8
-dump-36contexte-36contexte-3612
37lien370UTF-8
-dump-37contexte-37contexte-379
38lien380UTF-8
-dump-38contexte-38contexte-386
39lien390UTF-8
-dump-39contexte-39contexte-396
40lien400UTF-8
-dump-40contexte-40contexte-405
41lien410UTF-8
-dump-41contexte-41contexte-4122
42lien420UTF-8
-dump-42contexte-42contexte-429
43lien430UTF-8
-dump-43contexte-43contexte-439
44lien440WINDOWS-1252dump-44dump-44contexte-44contexte-443
45lien450WINDOWS-1252dump-45dump-45contexte-45contexte-4511
46lien460UTF-8
-dump-46contexte-46contexte-4613
47lien470UTF-8
-dump-47contexte-47contexte-474
48lien480UTF-8
-dump-48contexte-48contexte-4815
49lien490UTF-8
-dump-49contexte-49contexte-499
50lien500UTF-8
-dump-50contexte-50contexte-5018
 Fichier DUMP
global

49 fichier(s)
Fichier CONTEXTES
global

49 fichier(s)

Nuages


Elaboration des nuages


Les logiciels disponibles en ligne pour l'élaboration de nuages de mots sont nombreux et d’une utilisation assez intuitive. Certains sont ciblés vers l’obtention d’une représentation linguistique pertinente, d’autres vers un rendu graphique captivant. Ainsi, les premiers incluent par défaut une liste de mots grammaticaux à ne pas tenir en compte dans le produit final (pour les logiciels n’ayant pas cette option, l’exclusion des mots grammaticaux a dû être effectué manuellement en les effaçant du texte donné en entrée).


Bien évidemment, les mots à exclure changent selon la langue et, malheureusement, l’adaptation de ces logiciels a différentes langues est limitée et parfois même pas possible (à part l’anglais). Dans le cas du chinois en particulier, probablement à cause de la difficulté de segmentation qui représente la scripta continua, le nombre de logiciels de génération de nuages de mots est très limité.


Pour l'élaboration des nuages nous avons utilisé les outils suivants: Tagul, Wordcloud, Wordle, Worditout, Treecloud et Tagcrowd.



Vous trouverez ci-après les résultats obtenus pour chaque langue:

Résultats


Le Trameur


Le trameur est un logiciel développé par M. Serge Fleury et qui permet de faire de la lexicométrie et de la statistique textuelle. L’utilisation de ce logiciel a constitué la dernière phase de notre projet, dans laquelle nous avons effectué l’analyse statistique des occurrences et des cooccurrences des formes de l’expression « big data » en français, anglais, chinois, portugais et espagnol.


Avant de traiter les fichiers avec le Trameur, il a été nécessaire d’effectuer un « nettoyage » du corpus à fin d’harmoniser les données:

  • éliminer les extraits de texte non pertinents pour notre analyse (les boutons, les menus, etc).
  • mettre tout le texte dans la même case.
  • éliminer les cooccurents qui pourraient biaiser les résultats. À titre d’exemple, la coexistence des formes « big data » et ‘big data’ (avec guillemets doubles et simples) diminuerait le nombre de coocurrences pour big data (sans guillemets) alors qu’il s’agit du même terme.

Analyse corpus anglais


Dans le corpus en anglais, d’un total de 478 formes repérées par le Trameur, les cooccurrents les plus fréquents sont
« analytics » et « security », suivis de « ways » et « project ». Cela pourrait s’expliquer par l’augmentation incessante des masses d’information produites par les entreprises, d’où le besoin de trouver des nouvelles stratégies commerciales: Comment interpréter (analyser) ces données? Comment protéger ces informations de la concurrence? Comment en tirer profit ?
Les domaines d’application de l'analyse big data cités dans le corpus étant fort divers, ils n’ont pas été généralement retenus comme cooccurrents, à l’execption de « medecine ».
Une cooccurrence inattendue a été trouvée, il s’agit de l’année « 2013 ». Étant donnée que le corpus a été constitué en 2015, nous avons pris le soin d’exclure cette date de la recherche à l’aide la fonction « stop-list » et nous n’attendions pas trouver d’autre dates citées fréquemment dans le texte. Il faudrait donc des analyses postérieures pour trouver l’explication à cette corrélation (que s’est-il produit dans le domaine du traitement de données en 2013 ?).

screenshot trameur partie 1


Analyse corpus Chinois


Le mot « big data » est traduit en chinois par « 大数据 », mais dans certains cas on utilise également le mot en anglais. Avant de traiter le corpus du chinois avec le Trameur (et les outils de génération de nuages), il a été nécessaire de régler deux difficultés : I) Comme en chinois l’écriture est en continuum, nous avons utilisé un logiciel de segmentation qui renvoie un texte dont les mots sont séparés par des espaces ; II) L’expression « big data » en anglais est récupérée comme deux mots par le Trameur, ainsi que par les outils de création de nuages. Par conséquent, avant de charger le corpus, nous avons remplacé toutes les suites qui correspondaient à « big data » par « BIGDATA ».
Le Trameur a retenu les mots qui apparaissent 5 fois à côté de « big data » (en chinois et en anglais), et dont l'indice de spécificité est de 5. Bien que la forme chinoise de « big data » se présente beaucoup plus fréquemment que la forme anglaise, le Trameur extrait plus de cooccurrences en anglais. Les mots grammaticaux tels que « is », « for » et « which » se présentent fréquemment avec « big data » dans les textes chinois. Ce sont normalement des citations.
En chinois on utilise rarement les mots d'emprunt en leur forme d'origine. Ils ont forcément une traduction. Mais dans notre corpus, le mot « big data » se présente aussi plusieurs fois avec les mots en chinois et est utilisé directement en anglais dans une phrase chinoise. Ce phénomène existe également en français, espagnol et portugais.
La plupart des mots liés à « big data » (en anglais) dans le corpus chinois, sont des noms qui indiquent une application technique : 卫星 – satellite, 动物园 – zoo, 顾客 – client, 竞选 – élection, 买 – acheter). Le mot 大数据 (big data en chinois) se présente fréquemment avec les mots suivants: 创新 – innovation, 推动 – pousser, 国家 – pays, 安全 – sécurité, 开放 – l'ouverture, 资源 – ressources, 发展 – développement. Nous supposons que dans les articles qui font référence à l’application ou les techniques de big data, on utilise plus souvent le mot en anglais.


screenshot trameur partie 1


Analyse corpus Espagnol


Dans le corpus en langue espagnole, nous avons deux formes à analyser : « big data » et sa traduction « datos masivos ». À partir du grand écart entre le nombre total d’occurrences de la première forme (400) et de la deuxième (74), on constate une nette préférence pour l’emprunt direct de l’anglais. D’ailleurs, la présence de « datos masivos » parmi les cooccurrents de « big data » permet d’inférer qu’il est utilisé pour des raisons stylistiques comme par exemple, éviter la répétition.
Bien que l’analyse de cooccurrences ne s’intéresse pas normalement aux mots grammaticaux, il n’est pas possible de négliger la discordance au niveau des articles : même si la traduction en espagnol est une expression au pluriel, le terme
« big data » est précédé de l’article singulier. Cela implique que, ce qui prévaut dans la conception de l’entité « big data » est l’idée d’une grande masse indifférenciée à l’idée du rassemblement d’unités (hypothèse renforcée par le présence du cooccurrent « masse »).
Quant aux cooccurrences lexicales, la traduction en espagnol est le plus souvent accompagnée de « revolución »,
« sociedad », « proyectos » suivi de l’emprunt en anglais « analytics », « moda », « masa », « mitos » et « cloud ». On retrouve également avec une certaine fréquence le nom et prénom d’un auteur d’un livre sur le big data. On observe qu’en général le champ sémantique des mots autour de « big data » relève de la nouveauté, ce qui suggère qu’il est encore vu plus comme un phénomène d’actualité que comme une ressource économique.


screenshot trameur partie 1


Analyse corpus Français


Le corpus du français présente un nombre peu significatif d’occurrences de la traduction « données massives » (un total de 4), donc elle a été exclue de l’analyse. L’autre traduction possible, « mégadonnées », présente également une fréquence d’apparition assez faible (13 résultats).
Comme dans le cas de l’espagnol, la distribution contextuelle de l’emprunt et de sa traduction répond à des raisons stylistiques. Si on laisse de côté les cooccurrences de « du » et « le » (la normalisation du corpus français s’est avérée spécialement difficile en raison des nombreuses allomorphies), les mots le plus souvent trouvés dans le contexte de « big data » sont « analytics » et « projet ».
Les domaines d’applications du big data étant vaste, ils couvrent un éventail lexical difficile à cerner : on observe entre les cooccurrents des mots variés (« européene », « mythes », « plateforme », « meilleure ») et avec des indices de cooccurrences relativement bas.


screenshot trameur partie 1


Analyse corpus Portugais


En ce qui concerne le portugais, l’utilisation de l’emprunt est pratiquement entièrement généralisée (1 seule occurrence de « megadados » dans la totalité du corpus) de sorte que l’analyse de cooccurrences n’a pas été possible pour cette forme.
Les principaux cooccurrents lexicaux sont « soluções », « velocidade », « negócios » et « variedade ». On observe dans ce corpus l’existence de deux champs de cooccurrences : d’une part, ceux qui relèvent du monde de l’entreprise
(« soluções », « negócios », « projetos »), d’autre part ceux qui peuvent être plutôt rattachés à une description ou une explication du phénomène (« conceito », « veracidade », « lógica »). Comme il s’agit d’un terme relativement récent, il est possible que les articles du corpus essaient d’expliquer ce qu’est big data et de vanter son potentiel commercial.

screenshot trameur partie 1



Analyse comparative


Emprunt vs traduction


On constate une nette préférence pour l’emprunt directe de l’anglais en espagnol, en français et en portugais notamment, tandis que la traduction est plus fréquente en chinois. Cela n’est pas surprenant puisqu’il s’agit d’un terme appartenant au domaine de la technologie de l’information, qui est très prenant des mots d’origine anglo-saxonne. Ce qui nous a étonné c’est que la présence des formes traduites en espagnol est nettement supérieure à celles du français, bien que l’espagnol soit plus perméable aux emprunts que le français.


Cooccurrences


En lignes générales, le contexte lexical le plus souvent lié à l’expression appartient au vocabulaire du monde de l’entreprise : « solution », « projet » et « innovation ». La fréquence de ces mots dans le corpus pourrait s’expliquer surtout par l’engouement actuel autour du big data et par le nombre croissant d’entreprises qui cherchent à optimiser l’utilisation et l’analyse des données qu’elles génèrent.


Quant aux différences entre langues, il est à remarquer que les cooccurrences de domaines d’application plus concrets
(« security », « médecine », 卫星 – satellite, 竞选 – élection) se passent en anglais et en chinois (langues des sociétés qui se servent déjà du big data comme ressource ?). Dans les autres langues travaillées, on observe des cooccurrents qui suggèrent une certaine méfiance envers l’utilisation du big data: « moda », « mythes », « veracidade ». Il faudrait ré-effectuer ce travail ultérieurement pour vérifier s’il se produit des changements dans cette conception du big data en espagnol, français et portugais.