Programmation et Projet Encadré 2

Lucas Elias Fonseca et Camille Fernandes

Extraction des patrons

Pour la Boîte à Outils 3, nous avons élaboré des programmes capables d'extraire des patrons morphosyntaxiques. Le choix a été fait ici de ne pas rester sur la même extraction que précédemment, mais de proposer plusieurs patrons différents dans la composition de nos programmes. Nous pourrons les voir ci-après.


Extraction depuis un fichier Cordial via Perl.

Pour cette partie, nous avons composé un programme qui prend en entrée un fichier taggé par le logiciel Cordial et un fichier contenant des patrons morphosyntaxiques et dont la sortie nous est rendue en un fichier contenant les correspondances trouvées
Le programme crée une liste avec les tokens et les étiquettes, on compare la liste des part-of-speech et on ne retient que les patrons qui correspondent au motifs. Voici le script:

Et voici les résultats obtenus pour les 3 rubriques avec lesquelles nous travaillons pour le motif V.+ VINF DET.+ NC.+ :

PatronsCordial3208

PatronsCordial3210

PatronsCordial3224

Extraction depuis la sortie TreeTagger via feuille de style XSLT

Pour cela, nous avons élaboré et proposé des feuilles de style pour les fichiers en XML taggés par cordial. Voici le code utilisé :

Et voici les tableaux produits en sortie pour le motif VER:pres VER:infi NOM:

Fichier 3208
Fichier 3210
Fichier 3224

Extraction depuis la sortie TreeTagger via Perl

Enfin, nous avons construit un programme qui prend la sortie XML taggée et en extrait les patrons qui correspondent au motif cherché, qui est défini dans le code.
Pour chaque lingue qui correspond à note motif, on ajoute la forme correspondante à notre séquence et nous changeons le compteur. Si le compteur atteint la taile requise, on écrit la séquence dans notre fichier.

Voici notre code:

Et voici des exemples extraits des rubriques travaillées pour le motif NOM ADJ:

Fichier NOM-ADJ-TT-3208
Fichier NOM-ADJ-TT-3210
Fichier NOM-ADJ-TT-3224