BAO 4

Des textes aux graphes

Pour terminer, la BAO4 a pour but de nous permettre d’observer les relations de dépendance extraites par la BAO3 à l’aide d’un graphe. On va pour cela reprendre le programme Python de la BAO3 afin de produire une sortie formatée pour le site Padagraph, qu’on lui enverra directement depuis la ligne de commande. On pourra ensuite aller étudier le graphe obtenu sur le site.

Programme Python

LangageCommande de lancement dans le terminalProgramme commentéRésultat
Python python3 bao4.py bao2_UD_pl_3246.udpipe.xml obj | curl -X POST -H 'Content-Type: text/csv' --data-binary @- https://padagraph.magistry.fr/post_csv/laurine_charbonnier_3246_obj bao4.py Résultat dans le terminal
Graphe sur le site Padagraph

Ce programme prend en arguments le fichier XML étiqueté, et la relation à extraire. On repart du programme Python de la BAO3, auquel on va ajouter des modifications. On va prendre la lemmes à la place des formes des mots, afin d'augmenter la fréquence des relations et de rendre les résultats plus pertinents. On soumet chaque lemme extrait à une fonction de nettoyage, qui va permettre de supprimer tous les caractères non alphabétiques. Enfin, la plus grosse modification réside dans l'output : au lieu d'afficher les lemmes dans un fichier TXT, on va directement les faire apparaître dans les terminal, sous un format adapté au site Padagraph. Les gouverneurs et les dépendants correspondront à des sommets du graphe, qui seront ensuite reliés par la relation. On va donc d'abord donner les sommets des gouverneurs, regroupés sous le nom "Gouv". "id" Correspond à un identifiant unique pour chaque sommet. Comme un mot peut être gouverneur dans une relation et dépendant dans une autre, on les différencie en mettant un "g" ou un "d" devant. Enfin, on met le label, qui correspond au mot. On fait de même avec les dépendants, puis on va afficher les relations, en précisant toujours quel mot est le dépendant et lequel est le gouverneur. Ce résultat va donc s'afficher dans le terminal.

En lançant le programme, on peut rediriger la sortie du terminal directement vers le site Padagraph, à l'aide de la commande "curl -X POST -H 'Content-Type: text/csv' --data-binary @- https://padagraph.magistry.fr/post_csv/laurine_charbonnier_3246_obj". Le graphe en résultant est ensuite accessible sur le lien suivant : https://padagraph.magistry.fr/import/igraph?gid=laurine_charbonnier_3246_obj.

RESULTATS

Rubrique Culture (3246)

Relation sujet

Au vu de la diversité des clusters proposés par le graphe, il est difficile de les analyser un par un. On peut tout de même voir des mots liés à la culture ressortir, comme "réalisateur", "film", "série", "journaliste", "connaître", "documentaire", ou encore "photographe".

Relation objet

On peut apercevoir trois clusters principaux : l'un autour des arts avec "oeuvre", "film", "livre", "album", un autre autour du témoignage avec "vie", "rôle" et "histoire", et enfin un troisième autour du renouvellement, avec "année", "festival", "édition". Ces trois thèmes sont bien en rapport avec la culture, qui évolue sans arrêt.

Rubrique Idées (3232)

Relation sujet

Il est ici difficile de distinguer les différents clusters proposés par le graphe. On peut cependant apercevoir quelques mots liés à l'innovation et à la recherche, tels que "chercheur", "projet", "économiste", "sociologue", et "gouvernement". On peut en déduire que ces articles sont plus majoritairement liés à la recherche et aux questionnements, plutôt qu'aux solutions, comme peut le laisser penser le nom de la rubrique "Idées".

Relation objet

Trois thèmes se découpent sur ce graphe : les mots "politique", "système" et "place" font penser au gouvernement, "collectif" et "professeur" rappellent l'éducation, et "question", "pays", "France", et "société" nous ramènent sur des questions plus larges concernant le fonctionnement de la société française. Ces trois thèmes se rapportent à des questionnements généraux sur le fonctionnement d'un pays et la manière dont il est dirigé. On voit cependant plus de mots liés aux questions qu'aux réponses, qui devraient plus correspondre à la rubrique "Idées".