Lauryane Bonduelle

Programmation et Projet encadré

BAO2 - Étiquetage

"BAO2, Étiquetage du texte : les contenus textuels extraits doivent être étiquetés automatiquement (Treetagger et UDpipe : annotation en morpho-syntaxe et en dépendances)"

Cet exercice est une autre version du premier, dans laquelle lorsque l'on récupère les contenus des titres et des descriptions, on procède à une annotation avec TreeTagger et Udpipe.

Pour réduire le temps de traitement, on ne récupère le contenu que d'une seule rubrique à la fois. J'ai choisi la rubrique 3244, correspondant à la rubrique planète.

Les deux scripts se lancent avec en seul argument le dossier 2021 du flux RSS.

Script Python

Ce script python utilise le module spacy_udpipe pour l'annotation, et crée ainsi deux fichiers, xml et txt, en sortant la forme, le lemme, et la POS de chaque mot extrait. Pour le fichier xml, chaque groupe de titre et description correspond à une balise <item>, puis chaque mot correspond à une balise <element>. Les informations sont séparées par des tabulations pour le format txt.

Script Perl

Ce script perl utilise des fichiers exécutables udpipe.exe et tree-tagger.exe pour procéder aux annotations. Le script va créer des fichiers temporaires ne contenant que le contenu textuel, au format txt et au format xml, avant de lancer les annotations. Pour l'annotation Udpipe, le résultat sera un fichier txt au format CoNLL-U. Pour l'annotation TreeTagger, un autre fichier est créé avant de lancer le programme perl treetagger2xml-utf8.pl qui transforme les données au format xml, le même format que le résultat XML Udpipe du script python.

Les chemins pour exécuter les programmes d'annotations devront probablement être modifiés pour relancer le script.

python utilise le module spacy_udpipe pour l'annotation, et crée donc un fichier txt au format CoNLL-U et un fichier xml, tous deux issus d'une annotation UDPipe.