Boîte à outils n°2 (BAO2)

Annotations automatiques morpho-syntaxiques & en dépendances

avec Treetagger et UDpipe



L'objectif de cette deuxième partie est d'étiqueter ou annoter morpho-syntaxiquement et automatiquement chaque token (mot) du contenu textuel.

Les étiqueteurs utilisés dans ce projet sont TreeTagger et UDpipe.


Processus suivi pour annoter le contenu textuel

Le programme doit parcourir l'arborescence de fichiers et appliquer un traitement d'étiquetage sur chacun des fichiers rencontrés au moment du parcours. Deux stratégies peuvent être envisagées pour parcourir l'arborescence du dossier et étiqueter chaque mot extrait des balises "title" ou "description" des actualités :




Annotation/Etiquetage du contenu textuel à l'aide du langage de programmation PERL

Le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :

Sur le terminal, la requête suivante a été lancée perl BAO2-parcours-arborescence-fichiers.pl 2021 3210

En sortie, plusieurs fichiers sont récupérés :


Les liens vers ces fichiers de sortie sont disponibles ci-dessous :





Résultats

Fichier de sortie CONLL de l'étiqueteur UDpipe


Fichier de sortie XML de l'étiqueteur TreeTagger :




Annotation/Etiquetage du contenu textuel à l'aide du langage de programmation PYTHON

Un script PYTHON a été utilisé. Il est détaillé dans le lien ci-dessous :


Sur le terminal, la requête suivante a été lancée python BAO2_extract_un_fil_udpipe_parcours.py 2021 3210 output_xml.xml output_txt.txt

En sortie, deux fichiers sont récupérés :







Retour en haut