Boîte à Outils 3: Extraction de patrons

A travers cette boîte à outils, nous allons pouvoir, à partir des fichiers taggés créés dans la BAO 2, extraire les patrons morphosyntaxiques souhaités.


Pour le fichier étiquetté par Cordial .cnr, nous allons utiliser le script fourni par M. Jean Michel Daube, légèrement modifié afin de créer un fichier texte contenant tous les patrons extraits, et d'intégrer le code de la rubrique dans le nom de fichier afin de ne pas avoir à le supprimer et le recréer si l'on souhaite traiter plusieurs rubriques. Ce script nécessite les arguments "SortieISO_3242.cnr" (le fichier étiqueté par Cordial) et "listedepos.txt" (les patrons à extraire)
Voir le script

Le fichier de patrons que nous avons créé pour la rubrique Sport (3242) et le patron NOM ADJ peut être récupéré ici


Pour les fichiers étiquetés par TreeTagger, nous utiliserons des feuilles de styles, qui ont nécessité des modifications pour les adapter aux sorties de notre script de transformation des .txt taggés en XML.
Afin de récupérer le patron Nom Adj nous avons utilisé la feuille de style suivante:
Feuille de style 1
Pour le patron Verbe Det Nom, cette feuille de style a été utilisée:
Feuille de style 2


Enfin, les patrons obtenus par ces feuilles de style peuvent être visualisés ici (ou téléchargés par clic droit > "enregistrer le lien sous", ne pas oublier d'également télécharger la feuille de style associée):

Patron morphosyntaxique: NOM ADJ
Patrons extraits des titres
Patrons extraits des descriptions
Patron morphosyntaxique: V DET NOM
Patrons extraits des titres
Patrons extraits des descriptions

Pour plus de simplicité à la lecture, vu que les fichiers sont très lourds, voici directement leurs versions en texte brut au cas où:
Patrons Nom Adj extraits des titres
Patrons Nom Adj extraits des descriptions
Patrons V Det N extraits des titres
Patrons V Det N extraits des descriptions


Ces patrons extraits sont ensuite prêts à être visualisés sous forme de graphes, dans la BAO 4.

  • La boîte à outils 4

    Enfin, nous transformerons les patrons morphosyntaxiques en graphes afin de les visualiser