PROJET ENCADRE 2 - L8TI003

BOITES À OUTILS

BAO4 "Contexte et Graphes"

La BAO4 consiste à visualiser les relations de dépendance entre unités lexicales des données extraites sous forme de graphes obtenus sur la plateforme Padagraph. Dans cette partie, le fichier que nous utiliserons, après traitement de BAO3, génèrent le schéma des relations de dépendance. Ce diagramme de dépendance nous permet d'observer comment les mots sont rattachés les uns aux autres, quels mots apparaissent plus fréquemment, quels termes sont spécifiques au corpus, c'est-à-dire quels termes peuvent être utilisés relativement bien dans d'autres rubrique.

Script Python

Download

Bao4_Jiaxin_he.py



Commande

python3 programme.py fichier.xml relation | curl -X POST -H 'Content-Type: text/csv' --data-binary @- "https://padagraph.magistry.fr/post_csv/test"



Graphes obtenus avec Padagraph

Graphe obtenu sur la rubrique 3210 international :

Vue globale :



Zoom :

Pour la rubrique International, comme nous l'avons constaté, le corpus est assez abondant en termes de politique et, sans surprise, quelques termes courants sont "gouvernement", "pays", "pouvoir" et "président". Mais en plus de cela, nous trouvons également plusieurs mots sur le temps qui se démarquent et qui apparaissent très fréquemment, tels que "jeudi", "mardi" et "lundi". Sur ce point, nous supposons que le lexique du temps est fréquemment mentionné dans les rubriques internationales, peut-être parce que le temps est étroitement associé à certains des principaux événements de l'actualité internationale et qu'il est donc mis en avant.

Mot d'analyse :

Nous examinons spécifiquement le mot président et les mots qui l'entourent, les verbes qui lui sont associés, tels que "devenir", "réunir", "accuser". Le mot "devenir" peut être très clairement rattaché aux élections politiques en France. "réunir" indique qu'un certain nombre d'organisations internationales ou d'activités d'échanges transnationaux ont eu lieu l'année dernière et cette année. Par exemple, l'UE s'est rassemblée pour répondre au problème le trafic migratoire. Quant à "accuser", il s'agit clairement d'un terme diplomatique. La Russie, par exemple, a été condamnée au niveau international.

Graphe obtenu sur la rubrique 3234 économie :

Vue globale :

Zoom :

Si nous agrandissons l'image, dans le contexte global, il n'est pas difficile de voir certains des termes utilisés dans le domaine économique, tels que "milliard", "projet", "million", "entreprise" et "prix".Cela démontre que ces mots apparaissent fréquemment et sont beaucoup mentionnés dans cette rubrique, ce qui est conforme à la composition lexicale de ce corpus.

Mot d'analyse :

Si on prend le mot "projet" qui est amené à l'analyse. Dans le cas de la relation de dépendance "objet", il est évident de voir sur le schéma que les mots qui lui sont liés sont des verbes, par exemple, on a "faire", "prendre" et "annocer".Ces combinaisons de mots rappellent un peu certaines des mesures économiques qui ont été proposées en réponse à la crise de la santé ces deux dernières années.