BàO 3 Extraction

Comme pour la BAO 2, cette étape sera divisée en plusieurs parties : une partie qui se concentre sur les fichiers taggés avec treetagger, et une partie qui se concentre sur les fichiers étiquetés avec Cordial.
Pour chacune de ces parties, nous nous intéresserons à deux types de patrons morphosyntaxiques :
- NOM - ADJ
- NOM - PREP - NOM

1- PARTIE TREETAGGER


Pour chaque rubrique taggé avec tretagger (fichiers XML) nous avons utilisé des feuilles de styles xslt et des requêtes xpath et des requêtes XQUERY pour extraire en premier temps les NOM ADJ, et puis les NOM-PREP-NOM

voici des exemples réalisés avec XSLT



extraction NOM ADJ 3210




extraction NOM PREP NOM 3210




Le fichier


Extraction NOM-PREP-NOM






extraction NOM ADJ 3224





extraction NOM PREP NOM 3224



2- PARTIE CORDIAL


Pour Cordial, nous avons utilisé le programme perl de JMD qui consiste à fournir en argument 1 la rubrique et en argument 2 le fichier txt qui contient les patrons à extraire sous forme d'une expression régulière par exemple les NOM ADJ

Extraction NOM-ADJ 3210






Extraction NOM-PREP-NOM 3210




Extraction NOM-ADJ 3224




Extraction NOM-PREP-NOM 3224




Script d'extraction PERL