Extraction de patrons au moyen des expressions régulières

 

Nous disposons d'un script Perl qui a été construit pendant le cours avec l'aide de M. Daube.

 

Avec ce script nous avons traité les fichiers TXT traités avec Cordial. Dans ces fichiers les données ont été découpées et présentées sur trois colonnes selon les étiquettes associées: forme - lemme - catégorie grammaticale.

 

Les patrons syntaxiques correspondent à des structures grammaticales, telles "nom adjectif", "nom déterminant nom", "verbe préposition nom", dont les membres sont identifiés dans les fichiers par l'étiquette de la catégorie grammaticale.


Leur extraction a été réalisée et en utilisant des expressions régulières appliquées aux étiquettes spécifiques.

 

Notre script prend en arguments un fichier CORDIAL et une liste de patrons de notre choix.

 

photo

 

Pour le lancer, nous l'avons lancé avec ses arguments dans le terminal, sans oublier de rediriger aussi les résultats de l'extraction :

 

perl extractionREGEXP.pl sortie_RUB.cnr listedespatrons.txt > extractpatronsIDEES.txt

 

Voici un exemple de nos résultats :

 

photo

 

Deux listes de patrons sont aussi disponibles ici et ici.