Boîte à outils n°4(BAO4)

Des textes aux graphes


Nous avons utilisé un logiciel de visualisation développé par Pierre Magistry. A partir des données extraites dans la BAO3 lors de l'extraction des relations de dépendance, nous analysons visuellement ces relations lexicales sous forme de graphe. Nous chercherons à répondre à la question suivante : la visualisation du contenu textuel permet-elle d'identifier la rubrique thématique originale des données textuelles ?

Un script PYTHON a été utilisé. Il est détaillé dans le lien ci-dessous :

Sur le terminal, la requête suivante a été lancée python BAO4-visualisation-resultat-python.py corpus-titre-description.udpipe.xml | curl -X POST -H 'Content-Type:text/csv' --data-binary @- "https://padagraph.magistry.fr/post_csv/graphe-culture"



En sortie, le résultat suivant est récupéré :


On observe que le mot "pays" est dominant. Cela signifie-t-il que nous sommes dans la rubrique "International"? Les autres mots qui suivent sont "président", "gouvernement", "pouvoir". Le discours est politique.


Le résultat, en regardant le GOUV, est le suivant :


Le résultat, en regardant le DEP, est le suivant :


Si l'on fait un focus contextuel autour du mot "pays", le résultat, en regardant le GOUV, est le suivant :


Si l'on fait un focus contextuel autour du mot "pays", le résultat, en regardant le DEP, est le suivant :




Retour en haut