✓ Extraction des patrons morphosyntaxiques - Fichiers Talismane & TreeTagger
✓ PerlSuite à l’exécution du script pour BàO2 (Talismane (sortie txt brut) et Treetagger (sortie xml), on continue avec BàO3 qui consiste à extraire les patrons morpho-syntaxiques suivants :
- NOM-PREP-NOM-PREP
- VERBE-DET-NOM
- NOM-ADJ
- ADJ-NOM
Cependant, car les fichiers Talismane déjà construits pendant BàO2 sont en format txt, il faut les convertir vers des fichiers xml pour effectuer des requêtes XSLT. En conséquence, on a utilisé le script fournit par M. Serge Fleury talismane2xml-version-sans-titrevsdescription.pl afin de produire les fichiers xml.
perl talismane2xml-version-sans-titrevsdescription.pl bao2talismane_rubrique > bao3talismane_rubrique.xml
En outre, il faut mentionner que le script utilisé en Bao3 nous permet d’extraire les motifs différents.
Malgré le fait qu’au niveau d’annotation les deux outils étiquettent différemment nos corpus. Par contre, en basant sur les termes et leurs occurrences, on constate ces patrons sont capables à décrivent les thématiques de chaque rubrique en général, en permettant également l’extraction du lexique de chaque domaine (économie, cinéma, planète).