Notre travail consiste à analyser ainsi que développer
du traitement textuel dans un corpus multilingue.

nous avons travailler sur trois langues différentes :


- Français.
- Anglais.
- Malais.
- Coréen.

Afin de pouvoir observer quelles sont les différentes conceptions sociales d’un pays un autre du mot « Antivax». Ce projet et pour nous l’opportunité de développer
nos connaissances en linguistiques ainsi que de se perfectionner dans l’informatique car notre recherche va être automatisé.

Pourquoi ?

Dans le cadre du Master 1 Traitement automatique des langues à l’INALCO, nous sommes amenés à effectuer un projet encadré au cours du premier semestre.
L’objectif de ce projet encadré est de construire un corpus, à partir d’un mot, en utilisant un corpus multilingue composé de sites web.
Il faut donc contraster l’environnement des mots et chercher des variations sémantiques en analysant les données récupérées.

Choix du mot

Nous avons précisément choisi le terme « antivax » parce qu’il s’agit d’un sujet polémique depuis le début de la pandémie COVID-19. Certes, des mouvements contre la vaccination existent depuis longtemps, notamment contre la tuberculose, la variole, la rougeole, etc., mais comme tous les pays sont affectés par le COVID-19, nous avons facilement trouver des mentions de ce terme dans la presse écrite dans le monde entier. Cela rentre parfaitement aussi dans notre analyse, car la presse est souvent représentative du registre standard et officiel des langues.


Facilité de traduction du mot dans nos différentes langues.
Facilité de trouver les corpus
La différence de traitement du mot dans différentes langues.
Garder un corpus cohérent tout en utilisant la richesse de chaque langue.
Dans le cadre du Master 1 Traitement automatique des langues à l’INALCO, nous sommes amenés à effectuer un projet encadré au cours du premier semestre. L’objectif de ce projet encadré est de construire un corpus, à partir d’un mot, en utilisant un corpus multilingue composé de sites web. Il faut donc contraster l’environnement des mots et chercher des variations sémantiques en analysant les données récupérées. Il faut aussi bien choisir le genre et type de texte, car cela pourrait influencer l’utilisation du mot dans son environnement.

Nuages


Nous avons utilisé le site NuagesDeMots.fr afin de créer nos nuages de mots. L’avantage de ce site par rapport à d’autres sites que nous avons utilisé, comme WordArt ou WordCloudGenerator, est qu’il permet d’ajouter un fichier Word au lieu d’avoir à copier/coller le texte brut, et qu’il permet également d’enlever les mots inutiles. Par exemple, nos fichiers concaténés contiennent le mot « fichier » un grand nombre de fois pour permettre l’analyse iTrameur… le site nous permet de le supprimer du nuage de mots.


Card image cap
Card image cap
Card image cap
Card image cap

ANALYSE iTRAMEUR



ANGLAIS



Card image cap
Card image cap


En anglais, le mot « antivax » est souvent suivi de mots issus du jargon politique ou juridique comme « propaganda », « censorship » ou « laws », mais il est aussi souvent suivi de mots comme « groups », « volunteers », « campaigners », « sentiment », « followers », « movements » qui rapporte aux thèmes de l’activisme politique ou des croyances personnelles. Il est donc difficile de distinguer le mouvement antivax de ses vocations politiques et sociales. Les théories vaccino-sceptiques se propagent énormément par les réseaux sociaux. Il n’est donc pas surprenant de voir du vocabulaire associé aux réseaux sociaux : « sharing », « influencer », « video ». Dans les réseaux cooccurrents, nous remarquons qu’il y a des mots comme « Covid » ou « Keir Starmer », car ce mouvement est également inextricable du contexte actuel : celui de la pandémie de Covid-19.


COREEN


En coréen, la difficulté fut d’abord de rassemblé toutes les occurrences du mot « antivax » sous un même label. En effet, il y a plusieurs manières de dire « antivax » en coréen : 백신 거부자 (baekshin kobuja, « personne qui refuse le vaccin »), ou encore 백신 접종 거부자 (baekshink cheopchong kobuja, « personne qui refuse l’inoculation par le vaccin »), ou encore… ces mêmes mots, mais collés ! D’ailleurs, le mot présent dans le dictionnaire d’iTrameur pour antivax est « 백신거부자 », sans espace. C’est donc celui-ci que nous avons utilisé.



Card image cap


En coréen, il semble que nous soyons tombés sur pas mal d’articles parlant de « discrimination contre les antivax »… en effets, nous retrouvons le mot « 차별 » (chabyeol, « discrimination ») suivit de la particule 이라며 qui permet de citer quelqu’un plusieurs fois. Le mot 갈곳없는 (galgoseopsneun, « pas d’endroit où aller ») est l’une des expressions les plus fréquentes, mais il est difficile de se faire une idée sans contexte. En général, en coréen, il est difficile de comprendre la signification d’un mot sans son contexte : par exemple, le mot 맞는데 (maneunde) est aussi fréquent que le mot 갈곳없는, mais ce mot peut vouloir dire plein de choses en fonction du contexte… Il peut vouloir dire « il est vrai que… », ou « se faire frapper », ou « rencontrer », ou « être exposé à », ou même « avoir raison »… c’est également le verbe utilisé dans l’expression « se faire vacciner » (백신을 맞다, baekshineul mata). Nous pouvons également remarquer la présence de mots comme « 마곡 » ou « 강서구 » (Magok, Gangseo-gu), qui font en fait référence à un district de Séoul où un cluster de Covid-19 est survenu dans une école d’art privée, et qui a marqué une recrudescence du virus en Corée du Sud. D’autres mots intéressants sont 선별진료소 (centre de test), 분노하는 (être furieux), 설득 (persuader), 유튜브 (Youtube), où beaucoup de théories antivax circulent, 모여 (se rassembler)…


FRANÇAIS


Card image cap


Les résultats en français sont très similaires aux résultats en anglais. En effet, nous retrouvons des mots du registre politique ou de l’activisme : « militants », « discours », « mouvement », « pro ». Nous retrouvons aussi des références à des figures politiques ou publiques, comme « Corbyn » (l’opposant de gauche de Boris Johnson aux élections britanniques) ou « Piers », faisant référence à Piers Morgan, un présentateur télé et journaliste britannique de droite ayant partagé des théories antivax sur les réseaux sociaux. Comme en anglais, nous pouvons noter également la présence de mots en rapport avec les médias et les réseaux sociaux, où les théories antivax semblent être particulièrement prolifiques : « télévisions », « contenus », « caméra », « plateformes ».


MALAIS


Card image cap


En malais, le mot « antivaksin » est fortement liée aux substantifs « golongan » et « kumpulan », qui veulent dire « communauté » et « groupe » respectivement. Le mot « antivaksin » succède ces deux mots comme il fonctionne ici comme un adjectif. Nous remarquons que d'après notre corpus, les personnes antivax sont considérées comme une collectivité, d'où la tendance de leur libeller avec une telle étiquette. Cela s'avère évident comme « antivaksin » possède également une cooccurrence fréquente avec « mereka », qui est le pronom de la troisième personne au pluriel.


Nous notons aussi la présence du mot « terhadap », qui veut dire « contre », et qui précède souvent des syntagmes nominaux ayamt l'adjectif « antivaksin ». Avec le mot cooccurrent « polis » (« police»), cela montre que notre corpus comprend des articles qui parlent des mesures à appliquer contre des individus antivaccins, et qui inclut l'intervention de la police. Dans le même ordre d'idée, nous trouvons aussi des mots comme « ugutan » (« menace »), « pendakwaan » (« inculpation »), et « laporan » (« rapport [de police] »).

Nous


Nous sommes trois étudiants en Master 1: Traitement Automatiques des Langues, proposé par l’Institut National des Langues et Civilisations Orientales (INALCO) en collaboration avec les universités Paris-Nanterre, et Paris 3 (Sorbonne Nouvelle) .


Script

Tableaux

Copyright © 2020 All rights Reserved