|
Projet encadré 2 - Master Plurital 2013 |
Le programme patron2graphe.exe (Windows) permet de visualiser les
relations entre les mots. On utilise le programme à la ligne de
commande Windows comme suit :
Pour extraire tous les relations de mots d'un fichier :
patron2graphe.exe encodage_du_fichier_d'entrée fichier_d'entrée
Pour extraire les relations d'un motif spécifique :
patron2graphe.exe encodage_du_fichier_d'entrée fichier_d'entrée fichier_contenant_le_motif
Nous avons créé des graphes à partir de diverses sorties txt issues
des traitements
d'extraction de motifs de la boîte à outils 3. Seul le fichier issu du
traitement Cordial n'est pas en utf8. À titre d'exemple, nous nous
intéressons ici aux relations entre les mots
de la rubrique LIVRES.
Le résultat n'est jamais très parlant, car il y a trop de relations. Il est toutefois intéressant de constater que les endroits avec la plus grande densité de relations se trouvent autour des mots vides. Ceci est le graphe de relations de mots de la rubrique LIVRES étiquetée par Treetagger et filtrée sur le motif [nom ou nom propre + préposition + nom ou nom propre].
Nous constatons la même chose qu'avec la sortie issue de
l'étiquetage par Treetagger transformée en xml et filtrée par le motif
VER DET NOM. Ceci est le graphe de relations de mots de la rubrique
LIVRES, c'est-à-dire le graphe du
fichier LIVRES_res_extract-VER_DET_NOM.txt :
Il faudrait filtrer ces résultats. Ne sachant pas trop quel mot prendre nous avons essayé le motif "livre" (!)
Voici le graphe fait sur le fichier LIVRES_res_extract-VER_DET_NOM.txt :
On voit que le mot livre est en relation avec les mots abandonné et condamné - probablement il s'agit-il de l'avenir du livre face aux livres électroniques.
Voici un graphe sur le fichier de sortie issu du traitement via
Cordial. Rappelons-nous que ce fichier est le résultat d'une recherche
multi-patrons :
NC[A-Z]+#PREP#NP[A-Z]+
V[A-Z]+#V[A-Z]+
ADJNUM#NCMP
Le fichier étant en ISO-8859-1, il nous a fallu taper ceci à la ligne de commande :
patron2graphe.exe ISO-8859-1 SORTIE-livres_ISO-8859-1_patrons.txt motif_latin1.txt
Le contenu de motif_latin1.txt étant MOTIF=\blitt
Voici un résultat un peu plus parlant ! Le mot littérature est en relation avec spécialistes, souvenirs, classiques et Nobel.
Notre dernier graphe illustre les mots commençant par "li" dans le fichier LIVRES_res_extract-VER_DET_NOM.txt :