Boîte à outils 3: Extraction de patrons
L'objectif de la BAO3 est d'extraire des patrons syntaxiques à
partir des données étiquetées et cela grâce à trois méthodes. La
première méthode est un programme Perl qui extrait les patrons à partir
des fichiers au format txt étiquetés par Cordial.
Les patrons syntaxiques à extraire sont : / NOM ADJ/
/ NOM NOM/ /NOM PREP NOM/
Méthode daube sur fichier cordial
Les patrons syntaxiques sont contenus dans un fichier que j'ai nommé schemaPOS.txt (attention au vocabulaire de Cordial, les noms communs équivalent à des NC mais si on veut spécifier par exemple NCFS est un nom commun féminin singulier.)
- Le programmel utilise des listes pour extraire les patrons syntaxiques que l'on souhaite. Le programme prend en entrée le fichier étiquetés par Cordial dont on veut extraire les patrons syntaxiques suivi du fichier qui contient les POS à extraire (ici schemaPOS.txt) et pour finir on spécifie le nom du fichier de sortie. En sortie on obtient une liste contenant les POS pour le fichier d'entrée.
- Le programme se lance comme ceci: perl BAO3-Cordial.pl fichier-entrée.cnr schemaPOS.txt >> fichier-sortie.txt
- Voici
un exemple de la sortie que l'on obtient mais pour tous les POS que
l'on voulait extraire. Pour avoir chaque POS en particulier il suffit
d'avoir uniquement le schéma des parties syntaxiques que l'on veut
extraire sur une ligne. Vous pouvez trouver les fichiers avec les
patrons extraits ici.