Boîte à Outils 4 - Des Textes aux Graphes

Grâce à l'outil patron2graph.exe, on peut obtenir des graphes représentant les liens entre des mots et un motif précis. Cet outil prend en entrée deux fichiers : le fichier .txt qui contient les résultats de la BàO3, c'est-à-dire les "NOM ADJ" et les "NOM PREP NOM", et un fichier contenant le motif recherché. Ici, on étudiera plusieurs motifs : europ (pour obtenir "européen", "européenne" etc...), "diploma" (pour obtenir "diplomate", "diplomatique" etc...), et "dette".
On utilisera cet outil sur deux fichiers de la BàO3 : les résultats obtenus grâce au script Perl (donc se basant sur l'annotation de Cordial) et les résultats obtenus grâce à la feuille de style (donc se basant sur l'annotation de Treetagger). Les deux fichiers ne sont pas totalement identiques car le script Perl extrait les données des titres et des résumés tandis que la feuille de style n'extrait les données que des résumés. Les graphique obtenus ne seront donc pas similaires pour deux raisons :
➢ Car les fichiers traités ne contiennent pas les mêmes données
➢ Car Cordial et Treetagger n'annotent pas obligatoire de la même façon

Cliquez sur les images ci-dessous pour les agrandir

Motif : "europ"

➤ Graphe des résultats de Treetagger :
miniature
➤ Graphe des résultats de Cordial :
miniature
On voit que Treetagger et Cordial ne font pas le même traitement des articles : pour les mots comme "union", "unité" ou "idéal", Treetagger a conservé le l' alors que Cordial l'a écarté. Pour le segment "obligations européennes", soit Treetagger ne l'a pas taggué de la même façon que Cordial, soit il était dans une balise titre (qui n'est donc pas extraite avec la feuille de style XSL). Pour les graphes suivants, l'analyse est identique.

Motif : "diploma"

➤ Graphe des résultats de Treetagger :
miniature
➤ Graphe des résultats de Cordial :
miniature

Motif : "dette"

➤ Graphe des résultats de Treetagger :
miniature
➤ Graphe des résultats de Cordial :
miniature