🇫🇷 BIENVENUE

 

🇨🇳 欢迎

 

🇰🇷 환영합니다

 

🇬🇷 ΚΑΛΩΣ ΗΡΘΑΤΕ

Bao 3 - Extraction de patrons morphosyntaxiques







Objectifs :


✓ Extraction des patrons morphosyntaxiques - Fichiers Talismane & TreeTagger

✓ Perl
✓ XSLT
✓ XQuery

Patrons à extraire :


Suite à l’exécution du script pour BàO2 (Talismane (sortie txt brut) et Treetagger (sortie xml), on continue avec BàO3 qui consiste à extraire les patrons morpho-syntaxiques suivants :

- NOM-PREP-NOM-PREP

- VERBE-DET-NOM

- NOM-ADJ

- ADJ-NOM

Cependant, car les fichiers Talismane déjà construits pendant BàO2 sont en format txt, il faut les convertir vers des fichiers xml pour effectuer des requêtes XSLT. En conséquence, on a utilisé le script fournit par M. Serge Fleury talismane2xml-version-sans-titrevsdescription.pl afin de produire les fichiers xml.



perl talismane2xml-version-sans-titrevsdescription.pl bao2talismane_rubrique > bao3talismane_rubrique.xml


En outre, il faut mentionner que le script utilisé en Bao3 nous permet d’extraire les motifs différents.



Conclusion :


Malgré le fait qu’au niveau d’annotation les deux outils étiquettent différemment nos corpus. Par contre, en basant sur les termes et leurs occurrences, on constate ces patrons sont capables à décrivent les thématiques de chaque rubrique en général, en permettant également l’extraction du lexique de chaque domaine (économie, cinéma, planète).

Scripts Perl



Résultats Perl







Script XSLT




Résultats XSLT





Requête Xquery




Résultats Xquery