La boîte à outils 4



Nous voici arrivés à la fin de ce projet. Nous terminons par la visualisation des patrons morphosyntaxiques issus de l'extraction réalisée dans le cadre de la boîte à outils 3 grâce au programme patron2graphe.exe qui s'utilise en ligne de commandes sous Windows.

Patron2graphe prend en entrée un encodage à préciser, un fichier contenant les patrons et de manière optionnelle mais tout de même recommandée, un fichier contenant le motif à prendre en compte. Ce dernier peut être présenté en tant que mot orthographique ou expression régulière.

Voici la syntaxe générale : patron2graphe.exe "format d'encodage" fichier de patrons (fichier de motif(s))


Exemple 1 : sur les patrons NOM PRP NOM de la rubrique Politique (sans fichier de motifs)


Syntaxe : patron2graphe.exe "utf-8" res_extract-NOM_PRP_NOM.txt

Exemple de graphe sans utilisation de motif

Le résultat est tout simplement inexploitable tel quel, il est complètement illisible car si l'on ne donne aucun fichier de motifs au programme, celui-ci renvoie graphiquement tous les mots du fichier passé en entrée.


Exemple 2 : on reprend le fichier utilisé au-dessus mais avec un motif


Syntaxe : patron2graphe.exe "utf-8" res_extract-NOM_PRP_NOM.txt motif-utf8.txt

Le motif se présente sous la forme de l'expression régulière suivante : [Eé]tat pour récupérer les patrons NOM PRP NOM avec les mots Etat et état.

Exemple de graphe avec le motif [Eée]tat

On obtient un meilleur rendu que précédemment. On aurait également pu ajouter un "s" optionnel pour récupérer les occurrences des mots au pluriel. Notons que c'est "chef de l'Etat" qui est le plus représenté puisque nous travaillons sur les patrons issus de la rubrique Politique. En revanche, rien ne prouve qu'il s'agit forcément du Président de la République française, on ne peut que le supposer au vu de l'actualité en 2014.


Exemple 3 : sur les patrons ADJ NOM de la rubrique International


Syntaxe : patron2graphe.exe "utf-8" resultats_extraction_Cordial.txt motif-utf8.txt

Cette fois, nous n'utilisons pas d'expression régulière pour représenter le motif mais un mot : "pays"

Exemple de graphe avec le motif pays

En prenant le patron ADJ NOM, nous obtenons surtout l'association adjectif numéral cardinal + nom. Nous ne pouvons pas en déduire grand-chose, mis à part peut-être que l'on parle plus de groupes de pays (adjectifs numéraux désignant la pluralité) que d'un seul pays, sans doute parce que les groupes de pays (par exemple l'Union Européenne) ont plus de poids sur la scène internationale qu'un pays seul (cas particuliers de certains pays comme la Chine, le Japon, les Etats-Unis ou la Russie).


Au final, les graphes sont de très bons outils pour vérifier certaines hypothèses ou analyses linguistiques sur un corpus. Il faut néanmoins veiller à choisir des patrons et des motifs pertinents et en relation avec la question que l'on cherche à falsifier afin d'obtenir des résultats intéressants.