Projet encadré 2 - Master Plurital 2013



 Boîte à outils série 4 - les graphes

Le programme patron2graphe.exe (Windows) permet de visualiser les relations entre les mots. On utilise le programme à la ligne de commande Windows comme suit :

Pour extraire tous les relations de mots d'un fichier :
  patron2graphe.exe encodage_du_fichier_d'entrée fichier_d'entrée   
Pour extraire les relations d'un motif spécifique :
  patron2graphe.exe encodage_du_fichier_d'entrée fichier_d'entrée fichier_contenant_le_motif

Nous avons créé des graphes à partir de diverses sorties txt issues des traitements d'extraction de motifs de la boîte à outils 3. Seul le fichier issu du traitement Cordial n'est pas en utf8. À titre d'exemple, nous nous intéressons ici aux relations entre les mots de la rubrique LIVRES.

Des graphes de relations de mots de fichiers entiers

Le résultat n'est jamais très parlant, car il y a trop de relations. Il est toutefois intéressant de constater que les endroits avec la plus grande densité de relations se trouvent autour des mots vides. Ceci est le graphe de relations de mots de la rubrique LIVRES étiquetée par Treetagger et filtrée sur le motif [nom ou nom propre + préposition + nom ou nom propre].


Nous constatons la même chose qu'avec la sortie issue de l'étiquetage par Treetagger transformée en xml et filtrée par le motif VER DET NOM. Ceci est le graphe de relations de mots de la rubrique LIVRES, c'est-à-dire le graphe du fichier LIVRES_res_extract-VER_DET_NOM.txt :

Il faudrait filtrer ces résultats. Ne sachant pas trop quel mot prendre nous avons essayé le motif "livre" (!)

Voici le graphe fait sur le fichier LIVRES_res_extract-VER_DET_NOM.txt :

On voit que le mot livre est en relation avec les mots abandonné et condamné - probablement il s'agit-il de l'avenir du livre face aux livres électroniques.

Voici un graphe sur le fichier de sortie issu du traitement via Cordial. Rappelons-nous que ce fichier est le résultat d'une recherche multi-patrons :
  NC[A-Z]+#PREP#NP[A-Z]+
  V[A-Z]+#V[A-Z]+
  ADJNUM#NCMP
Le fichier étant en ISO-8859-1, il nous a fallu taper ceci à la ligne de commande :
   patron2graphe.exe ISO-8859-1   SORTIE-livres_ISO-8859-1_patrons.txt   motif_latin1.txt
   Le contenu de motif_latin1.txt étant  MOTIF=\blitt

Voici un résultat un peu plus parlant ! Le mot littérature est en relation avec spécialistes, souvenirs, classiques et Nobel.

Notre dernier graphe illustre les mots commençant par "li" dans le fichier LIVRES_res_extract-VER_DET_NOM.txt :