PROJET ENCADRE 2 - L8TI003

BOITES À OUTILS

BAO3 "extraction de patrons"

BAO3 est la phrase qui a pour but de rechercher et d'extraire des patrons morphosyntaxiques (les séquences NOM ADJ, NOM KON NOM, VER PRP DET NOM, etc.) et des relations de dépendances à partir des résultats étiquétés avec TreeTagger et Udpipe de la BAO2 avec Perl, Python, XSLT et XQuery (cf Cours Documents Structurés). Avec cette étape, les patrons extraits peut nous aider à analyser l'usage lexical du corpus et les caractéristiques du corpus.

Les patrons à extraire sont:

NOM ADJ

ADJ NOM

NOM KON NOM

VER DET NOM

VER PRP DET NOM

NOM PRP NOM PRP

Scripts pour l'extraction des patrons morphosyntaxiques :

perl - Bao3_extract.pl

python - Bao3_extract.py

xsl - NOM-ADJ-TT.xsl

xsl - NOM-PREP-NOM-PREP-TT.xsl

xq - NOM-ADJ-UD.xq

xq - NOM-PRP-NOM-PRP-UD.xq

Perl :

En prenant en entrée des fichiers étiquetés par Treetagger, nous pouvons appliquer la méthode de perl pour extraire les patrons morphosyntaxiques.

Le script :

Fichier sorti :

Rubrique International 3210 NOM ADJ :

Commande :

Python :

Fichiers sortis :

Rubrique International 3210 NOM PRP NOM PRP :

Commande :

Xslt :

Le script :

Fichiers sortis :

Rubrique International 3210 NOM ADJ :

XQuery :

Le script :

Fichiers sortis :

Rubrique International 3210 NOM ADJ :

Scripts pour l'extraction des relations de dépendance :

perl - extract-relation-udpipe.pl

xsl - relation-OBJ-UD.xsl

xq - extract-OBJ-udpipe-sort.xq



Résultats pour la rubrique 3210 :

Perl :

perl-TT-NOM-ADJ.txt

perl-TT-ADJ-NOM.txt

perl-TT-NOM-KON-NOM.txt

perl-TT-NOM-PRP-NOM-PRP.txt

perl-TT-VER-DET-NOM.txt

perl-TT-VER-PRP-DET-NOM.txt

relation_obj_3210.txt



Python :

py-TT-NOM-ADJ.txt

py-TT-ADJ-NOM.txt

py-TT-NOM-KON-NOM.txt

py-TT-NOM-PRP-NOM-PRP.txt

py-TT-VER-DET-NOM.txt

py-TT-VER-PRP-DET-NOM.txt



xslt et xquery :

NOM-PRP-NOM-PRP-TT-3210.txt

NOM-ADJ-3210-UD.txt

NOM-PRP-NOM-PRP-3210-UD.txt

relation_obj_3210.txt

relation_obj-3210.txt



Résultats pour la rubrique 3234 :

Perl :

perl-TT-NOM-ADJ.txt

perl-TT-ADJ-NOM.txt

perl-TT-NOM-KON-NOM.txt

perl-TT-NOM-PRP-NOM-PRP.txt

perl-TT-VER-DET-NOM.txt

perl-TT-VER-PRP-DET-NOM.txt

relation_obj_3234.txt



Python :

py-TT-NOM-ADJ.txt

py-TT-ADJ-NOM.txt

py-TT-NOM-KON-NOM.txt

py-TT-NOM-PRP-NOM-PRP.txt

py-TT-VER-DET-NOM.txt

py-TT-VER-PRP-DET-NOM.txt



xml et xslt :

NOM-PRP-NOM-PRP-3234-TT-3234.txt

NOM-ADJ-3234-UD.txt

NOM-PRP-NOM-PRP-3234-UD.txt

relation_obj_3234.txt

relation_obj-3234.txt