Exercices réalisés en Perl et Python

Réalisation

Afin d'effectuer l'annotation morho-syntaxique et l'étiquetage de dependances syntaxiques,
j'ai utilisé 2 outils : TreeTagger et Udpipe.

Si TreeTagger est un outil connu pour nous, étudiants en première année, UDpipe est un programme nouveau. En fait il s'agit d'un modèl de langue entraînable pour la tokenisation, le balisage, la lemmatisation et l'analyse des dépendances des fichiers CoNLL-U.

Le résultat d'annotation est représenté par 2 fichiers : l'un au au format CONLL (évoqué ci-haut, est fichier texte où chaque ligne représente un mot unique avec une série d'étiquettes séparées par des tabulations) correspond à la sortie d'étiquetage udpipe, l'autre est un schéma xml et est un résultat d'étiquetage par treetagger.

Voici les codes en Perl et Python (il se compose de 2 fichiers: fichier BAO_2_parcours_arbo qui appelle en tant que module le fichier extract_uppipe ), ainsi que les résultats obtenus après l'execution des codes :


Output_TXT rubrique "International" Output_XML rubrique "International"
Output_TXT rubrique "Livres" Output_XML rubrique "Livres"
Output_TXT rubrique "Media" Output_XML rubrique "Media"
Output_TXT rubrique "Sciences" Output_XML rubrique "Sciences"
Output_TXT rubrique "Voyage" Output_XML rubrique "Voyage"