BAO2 – Etiquetage

Pour cette deuxième partie, nous reprenons le code que nous avons créer pour la BàO1 mais nous le modifions pour pouvoir créer des fichiers taggés en sortie. Nous utilisons deux programmes d'étiquetages différents pour le fichier texte et le fichier XML. Pour le fichier texte, nous utilisons Udpipe. Pour le fichier XML, nous utilisons TreeTagger. Encore une fois, nous avons deux scripts : un script Perl et un script Python, qui serons commentés ci-dessous.


Code Perl

On lance le script de cette façon : perl BAO2.pl ../2021 3246. En sortie, nous récupérons deux fichiers : corpus-titre-description.udpipe (qui correspond au fichier CONLL étiqueté par Udpipe) et corpus-titre-description.xml (qui correspond au fichier XML étiqueté par TreeTagger).




En sortie, nous obtenons deux fichiers qui ressemblent à ceci :




Code Python

Le script Python est en fait composé de deux scripts, un qui nous servera de module à importer et l'autre qui servira de script principal. Le module à importer est plutôt simple : il permet de ressortir deux fichiers annotés, un fichier texte et un fichier XML. Il fait donc la même chose que le fichier Perl que j'ai présenté au-dessus. Le fichier BAO2.py, lui, est un hybrique entre le script de la BàO1 et le script extract_un_fil_udpipe.py. Afin de lancer le script, nous pouvons taper dans la ligne de commande : python3 BAO2.py ../2021 3246 xml_output.xml txt_output.txt. En sortie, nous obtenons un fichier xml_output.xml et un fichier txt_output.txt.




La fonction utilisée dans BAO2.py est définie dans le fichier extract_un_fil_udpipe.py :




En résultat, nous obtenons un fichier XML et un fichier texte :