BÀO 2: "Etiquetage"

Au cours de cette partie nous allons utiliser le code que nous avons créer pour la BÀO1, nous allons le modifier afin de pouvoir créer des fichiers taggés en sortie. Nous allons utiliser deux programmes d'étiquetages différents pour le fichier texte et le fichier XML. Pour le fichier texte, nous allons utiliser Udpipe. Pour le fichier XML, nous allons utiliser TreeTagger. Nous avons en notre disposition deux scripts : un script Perl et un script Python.

Script Python

Ce dernier est composé de deux scripts, le premier est un module qui nous permettra d'importer et le deuxième qui servira de script principal. Le module à importer son usage est simple : il permet de ressortir deux fichiers annotés, un fichier texte et un fichier XML. Il fait donc la même chose que le fichier Perl que je vais présenté. Le fichier BAO2.py, lui, est un développement entre le script de la BàO1 et le script extract_un_fil_udpipe.py. Afin de lancer le script, nous pouvons taper dans la ligne de commande : python BAO2.py /2021 3208 xml_output.xml txt_output.txt. En sortie, nous obtenons un fichier xml_output.xml et un fichier txt_output.txt.





Script en Perl

Nous allons lancer le script de cette manière : perl BAO2.pl /2021 3208. En sortie, nous récupérons deux fichiers : corpus.udpipe (qui correspond au fichier CONLL étiqueté par Udpipe) et corpus.xml (qui correspond au fichier XML étiqueté par TreeTagger).