Boîte à outils 4: graphes



La boite à outils 4 consiste à modéliser les patrons extraits avec la Bao3 en graphes de mots par l'intermédiare du programme  patron2graphe disponible ici.
Le programme fonctionne en ligne de commande et se lance comme ceci :
./patron2graphe.exe "encodage" fichier_patron.txt fichier_motif.txt
Le troisième argument fichier_motif.txt est optionnel. Il permet au programme de filtrer et de ne sortir que le graphe correspondant au motif dans le fichier_motif.txt.

Voici un exemple sur la rubrique LIVRES et le patron NOM PREP NOM sans spécification de motif:
Une meilleure visualisation

Il est préférable et plus intéressant de spécifier un motif. Cela va permettre de trouver le motif recherché son nombre d'occurrences et son contexte.
En voici quelques exemples :

Graphe réalisé sur les POS CINEMA sur le motif "film" (à partir des fichiers Cordial de la BAO2 fait en BAO3).
Graphe réalisé sur les POS EUROPE sur le motif "euro". On constate que l'on récupère aussi bien "euro" que  "européenne". En spécifiant "/beuro/b" le résultat est affiné et on obtient des occurences comme "parti anti euro", "euro sous assistance", "zone euro", "euro scepticisme".




En 2013, le mariage entre personnes du même sexe a été autorisé. Voici le Graphe réalisé sur les POS SOCIETE sur le motif "homo".

Graphe réalisé sur les POS ECONOMIE sur le motif "crise".


 
Graphe réalisé sur les POS ECONOMIE sur le motif "\btravail".

Cette représentation graphique permet de filtrer et de visualiser clairement des mots venant à la base d'un corpus énorme certes structuré mais pas très pratique, lisible ni ergonomique. Au final on obtient une vue simple et compréhensible (sauf si le fichier est important et par conséquent l'arbre aussi) du contenu initial.