Projet encadré 2

Lakkhana EAR

M1 TAL 2021-2022
Sorbonne Nouvelle

Objectif BàO3 :

Extraction de patrons (avec Perl, Python, XSLT, XQUERY)

Solution n°1 : Construire un programme python pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec UDPIPE et TREETAGGER

Construire un programme perl/python pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec UDPIPE et TREETAGGER

Ligne de commande pour lancer le programme :
 python3 bao3_extract_patron_v2.py corpus-annotation-spacy-ud_3242.xml PATRON1 -- PATRON2 -- ... --PATRON6 

Fichiers en entrée : les textes bruts extraits et étiquetés via Udpipe et Treetagger

Voir les résultats des patrons dans le rubrique 3208
Voir les résultats des patrons dans le rubrique 3242

Solution n°2 : Construire une feuille de styles XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits au format XML

On commence par construire les feuilles de styles XSLT suivantes sur ces 2 fichiers construits à partir de l'arborescence 2021, la rubrique "A La Une" et la rubrique "Sport" :

Ligne de commande pour lancer le programme :
 xsltproc xslt_TT.xsl corpus-annotation-spacy-ud_3208.xml > patron_3208.html xsltproc xslt_TT.xsl corpus-annotation-spacy-ud_3242.xml > patron_3242.html
Un seule fichier XSLT pour tous les patrons morphosyntaxiques
Un fichier XSLT pour chaque patron morphosyntaxique

Solution n°3 : XQuery/XPath

Construire une requête pour extraire les patrons morpho-syntaxiques à l'aide de logiciel BaseX

Voir les requêtes des patrons dans le rubrique 3208
Voir les résultats des patrons dans le rubrique 3208
Voir les requêtes des patrons dans le rubrique 3242
Voir les résultats des patrons dans le rubrique 3242

Extraction de relations de dépendance (avec Perl, XSLT, XQuery)

Sur les données annotées en dépendance (udpipe), on essaiera de construire des ressources pour extraire les items connectés dans une relation de dépendance donnée (tous les mots connectés dans la relation OBJ).

Solution n°1 : On construira une feuille de styles XSLT pour extraire la liste de mots connectés dans une relation de type OBJ

Ligne de commande pour lancer le programme :
 xsltproc relation-OBJ-UD-xslt.xsl bao2_3208.txt.xml > nom_fichier.txt 
Fichier en entrée : les textes étiquetés via UDpipe dans la BàO2 et reformatés en XML (1 fichier XML par rubrique)

Solution n°2 : avec XQuery

On construit une requête Xquery. On essaiera en outre de compter et trier les différents couples (gouverneur, dépendant) produits.

Voir les requêtes dans le rubrique 3208
Voir les requêtes dans le rubrique 3242
Fichier en entrée : les textes étiquetés via UDpipe dans la BàO2 et reformatés en XML (1 fichier XML par rubrique)

Solution n°3 : avec Perl

On construit une script perl. On essaiera en outre de compter et trier les différents couples (gouverneur, dépendant) produits.

Fichier en entrée : les textes étiquetés via UDpipe dans la BàO2 (1 fichier XML par rubrique)