Analyse avec iTrameur

Nous avons utilisé un logiciel d'anaylse textométrique, Le Trameur ou iTrameur, développé par Serge Fleury

Le trameur est un programme d'analyse comportant de nombreuses fonctionnalités pour l'analyse automatique, statistique et documentaire de textes, en vue de leur profilage sémantique, thémathique et de leur interprétation.

Il permet de décrire les corpus de textes en comparant / contrastant les distributions de différentes unités textuelles au sein des parties du corpus.

A l'aide de cet outil, nous avons exploré le corpus avec les méthodes suivantes :

- La fouille

- Le dénombrement

- La fréquence

- La concordance

- Les calculs de cooccurents et de spécificités

Résultats

Chinois

- Il n'y a ni conjugaison, ni genre, ni accord en chinois, mais les textes chinois exigent la segmentation. Dans notre cas, nous avons utilisé Stanford Word Segmenteraper (téléchargé d'ici) Nous avons choisi une expression comme motif ciblé, mais cela ne pose pas de grande problème pour cet outil. Pourtant, il segmente parfois le nom du président "Biden" en deux mots : 拜(Bi) et 登 (den).

En chinois, la séquence 核武器(arme nucléaire) peut être abrégée en 核武. Pour faciliter l'analyse, nous avons remplacé tous les 核武器 par 核武.

Nous avons distingué le chinois simplifié du chinois traditionnel. Dans le corpus du chinois simplifié, nous remarquons que la séquence Etats Unis a une fréquence suppérieure à celle de notre motif cible et à celle du mot Chine, comme l'image ci-dessous le montre.

analyse_cn_freq

Fréquence des mots concernés dans le corpus du chinois simplifié

Supposant que les usagers des deux types du chinois ne partagent pas leur avis sur ce sujet, nous avons distingué les deux variantes langagières. Pourtant, finalement, les données récupérées ne nous permettent pas de faire une analyse du sentiment : d'une part, c'est parce que notre échantillon est tout petit, surtout celui du chinois traditionnel ; d'autre part, il n'existe pas beaucoup de balises émotionnelles dans notre corpus, surtout autour de notre séquence.

Les quatre cooccurents du motifs les plus fréquents de notre motif sont : 使用(utilisation), 拥有(possession), 扩撒(prolifération) et 战术(stratégie).

coocurrent_cn.png

Coocurrents de l'arme nucléaire dans les textes chinois

En regardant la concordance, on va trouver que notre mot clé se situe souvent dans un contexte "négatif" :

il ne faut pas l'utiliser

les pays n'ayant pas cette arme ne doivent pas chercher à l'inventer

non-prolifération de l'arme nucléaire

si la stratégie nucléaire de son pays va être justifiée, celle d'un pays tiers risque d'être décrit comme un complot politique

Français

En français, la ventilation ou la fréquence de la séquence « ArmesNucléaires » au sein du corpus est la suivante :

Ventilation_1_rev.JPG

Ventilation de l'arme nucléaire dans le corpus français

Ventilation_3_rev.JPG

Spécificité de l'arme nucléaire dans le corpus français

- Le dictionnaire indique 150 occurrences du terme « ArmesNucléaires ». Le pays le plus cité est l’Iran.

Dictionnaire_fr.JPG

Dictionnaire du corpus français

Par exemple, dans l’articles de presse française n°13, le concordancier nous indique ci-après le contexte autour du pôle « Armes nucléaires »

Concordance_rev.JPG

Concordance du corpus français

Le calcul des cooccurrents via le calcul des spécificités, c’est-à-dire la recherche des mots proches ou attractifs et massivement présents sont dans notre contenu français les suivants :

Parametrage_1_rev.JPG

Parametrage

IdS-1.JPG

Résultat

Les mots les plus attirés par la séquence « ArmesNucléaires » sont «dotés », « traité », « interdiction », « emploi ». Le sujet principal du contenu français concerne le traité (de non-prolifération des armes nucléaires). Certains pays non officiellement dotés de l’arme nucléaire se doteraient-ils de cette arme malgré l’interdiction internationale indiquée dans le traité international ?

Cooc_1_rev.JPG

Résultat

Anglais

‌La fréquence de la séquence "nuclear weapons" en anglais est la suivante :

Cooc_1_rev.JPG

‌Les cooccurrences les plus fréquentes en anglais sont "threatens", "northkorea", "hostility", "use", "iran", "pakistan", "russie", "prohibition", "treaty". La menace de l'utilisation de l'arme nucléaire et les hostilités proviennent de la Corée du Nord, de l'Iran et du Pakistan. La Russie intervient dans les échanges internationaux.

Cooc_1_rev.JPG
Cooc_1_rev.JPG

Turc

L’analyse du mot « Nükleer Silah » en turc équivaut à l'« Arme Nucléaire ». Nous avons essayé de l’observer avec des données statistiques, sémantiques et texto métrique avec l’aide de logiciel iTrameur.

iTrameur

iTrameur

Comme on ne peut pas analyser deux mots ensemble avec ITrameur, on a supprimé l’espace entre le « nükleer silah » et j’ai utilisé les mots sans espace « nükleersilah » pendant toute l’analyse

turc
Turc
Turc

Avec le Dictionnaire, on voit les mots les plus utilisés dans notre fichier avec FQ(fréquence). On observe les mots « nükleersilah » (Arme Nucléaire), « nükleer (nucléaire) » et les noms des pays qui ont les armes nucléaires.

Traduction des noms des pays dans les mots plus fréquents :

ABD = Etas Unis

İngiltere : Anglais

İran : Iran

Rusya: Russie

Çin: Chine

Turc

Concordance

Turc

Fréquence Absolue

Turc

Fréquence relative

On a recherché nos mots avec la concordance sous le Trameur pour comprendre les contextes des phares qui contiennent « nükleersilah » .

Turc

Concordance

Grace à ce schéma, on voit les mots les plus attirés par les mots « nükleersilah ». On observe qu’il y a des mots comme :

Sahip : Le proprité

Antlasma : L’accord

CMossad / NATO / CORÉE

Uluslararasi : L’Internationale

Savaş : La guerre

Remarque : le mot « nükleersilah » est utilisé souvent avec les mots qui ont le sens de pouvoir, guerre et ils sont utilisés souvent dans la presse internationale.

Retour en haut