Boîte à outils 4: graphes
La boite à outils 4 consiste à modéliser les patrons extraits avec
la Bao3 en graphes de mots par l'intermédiare du programme
patron2graphe disponible ici.
Le programme fonctionne en ligne de commande et se lance comme ceci :
./patron2graphe.exe "encodage" fichier_patron.txt fichier_motif.txt
Le troisième argument fichier_motif.txt est optionnel. Il permet au
programme de filtrer et de ne sortir que le graphe correspondant au
motif dans le fichier_motif.txt.
Voici un exemple sur la rubrique LIVRES et le patron NOM PREP NOM sans spécification de motif:
Une meilleure visualisation
Il est préférable et plus intéressant de spécifier un motif. Cela va
permettre de trouver le motif recherché son nombre d'occurrences et son
contexte.
En voici quelques exemples :
Graphe réalisé sur les POS CINEMA sur le motif "film" (à partir des fichiers Cordial de la BAO2 fait en BAO3).
Graphe réalisé sur les POS EUROPE
sur le motif "euro". On constate que l'on récupère aussi bien "euro"
que "européenne". En spécifiant "/beuro/b" le résultat est affiné
et on obtient des occurences comme "parti anti euro", "euro sous
assistance", "zone euro", "euro scepticisme".
En 2013, le mariage entre personnes du même sexe a été autorisé. Voici le Graphe réalisé sur les POS SOCIETE sur le motif "homo".
Graphe réalisé sur les POS ECONOMIE sur le motif "crise".
Graphe réalisé sur les POS ECONOMIE sur le motif "\btravail".
Cette représentation graphique permet de filtrer et de visualiser clairement des mots venant à la base d'un corpus énorme certes structuré mais pas très pratique, lisible ni ergonomique. Au final on obtient une vue simple et compréhensible (sauf si le fichier est important et par conséquent l'arbre aussi) du contenu initial.