Comme pour la BAO 2, cette étape sera divisée en plusieurs parties : une partie qui se concentre sur les fichiers taggés avec treetagger, et une partie qui se concentre sur les fichiers étiquetés avec Cordial.
Pour chacune de ces parties, nous nous intéresserons à deux types de patrons morphosyntaxiques :
- NOM - ADJ
- NOM - PREP - NOM
Pour chaque rubrique taggé avec tretagger (fichiers XML) nous avons utilisé des feuilles de styles xslt et des requêtes xpath et des requêtes XQUERY pour extraire en premier temps les NOM ADJ, et puis les NOM-PREP-NOM
voici des exemples réalisés avec XSLT
extraction NOM ADJ 3210
extraction NOM PREP NOM 3210
Le fichier
extraction NOM ADJ 3224
extraction NOM PREP NOM 3224
Pour Cordial, nous avons utilisé le programme perl de JMD qui consiste à fournir en argument 1 la rubrique et en argument 2 le fichier txt qui contient les patrons à extraire sous forme d'une expression régulière par exemple les NOM ADJ