Extraction de patrons (avec Perl, Python, XSLT, XQUERY)
Solution n°1 : Construire un programme python pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec
UDPIPE et TREETAGGER
Construire un programme perl/python pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec UDPIPE
et TREETAGGER
Ligne de commande pour lancer le programme :
python3 bao3_extract_patron_v2.py corpus-annotation-spacy-ud_3242.xml PATRON1 -- PATRON2 -- ... --PATRON6
Fichiers en entrée : les textes bruts extraits et étiquetés via Udpipe et Treetagger
Voir les résultats des patrons dans le rubrique 3208
Voir les résultats des patrons dans le rubrique 3242
Solution n°2 : Construire une feuille de styles XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits
au format XML
On commence par construire les feuilles de styles XSLT suivantes sur ces 2 fichiers construits à partir de l'arborescence
2021, la rubrique "A La Une" et la rubrique "Sport" :
Ligne de commande pour lancer le programme :
xsltproc xslt_TT.xsl corpus-annotation-spacy-ud_3208.xml > patron_3208.html
xsltproc xslt_TT.xsl corpus-annotation-spacy-ud_3242.xml > patron_3242.html
Un seule fichier XSLT pour tous les patrons morphosyntaxiques
Un fichier XSLT pour chaque patron morphosyntaxique
Solution n°3 : XQuery/XPath
Construire une requête pour extraire les patrons morpho-syntaxiques à l'aide de logiciel BaseX
Voir les requêtes des patrons dans le rubrique 3208
Voir les résultats des patrons dans le rubrique 3208
Voir les requêtes des patrons dans le rubrique 3242
Voir les résultats des patrons dans le rubrique 3242
Extraction de relations de dépendance (avec Perl, XSLT, XQuery)
Sur les données annotées en dépendance (udpipe), on essaiera de construire des ressources pour extraire les items connectés
dans une relation de dépendance donnée (tous les mots connectés dans la relation OBJ).
Solution n°1 : On construira une feuille de styles XSLT pour extraire la liste de mots connectés dans une relation de type
OBJ
Ligne de commande pour lancer le programme :
xsltproc relation-OBJ-UD-xslt.xsl bao2_3208.txt.xml > nom_fichier.txt
Fichier en entrée : les textes étiquetés via UDpipe dans la BàO2 et reformatés en XML (1 fichier XML par rubrique)
Solution n°2 : avec XQuery
On construit une requête Xquery. On essaiera en outre de compter et trier les différents couples (gouverneur, dépendant) produits.
Voir les requêtes dans le rubrique 3208
Voir les requêtes dans le rubrique 3242
Fichier en entrée : les textes étiquetés via UDpipe dans la BàO2 et reformatés en XML (1 fichier XML par rubrique)
Solution n°3 : avec Perl
On construit une script perl. On essaiera en outre de compter et trier les différents couples (gouverneur, dépendant) produits.
Fichier en entrée : les textes étiquetés via UDpipe dans la BàO2 (1 fichier XML par rubrique)