Annotation du contenu textuel. On utiliser TreeTagger sur les fichiers .xml et Udpipe sur les fichiers .txt
Nous réutilisons les scripts de la BaO1 (explication ici) en les modifiant. En effet, on va ajouter quelques fonctions pour annoter les contenus textuels. Je présenterai seulement les fonctions ajoutées aux scripts. Il faut télécharger les scripts pour les avoir. Ce script va nous permettre d'annoter nos fichiers .xml avec TreeTagger et nos fichiers .txt avec Udpipe. Nous allons récupérer en sortie des fichiers .xml annotés par TreeTagger et des fichiers .txt annotés par Udpipe (puis convertis au format .xml). Le script est lancé depuis le répertoire PROJET-ENCADRE.
Temps : real 20m3.897s
Il y a quatre argument à ajouter : le dossier contenant l'arborescence, la sortie.xml, la sortie.txt et le nom de la rubrique. On lance le script pour chaque rubrique à traiter. Pour utiliser spacy_udpipe et spacy_connl, j'ai du utiliser un environnement virtuelle avec la commande suivante :
TreeTagger a besoin, pour l'annotation, que chaque token soit sur une ligne. On utilise donc la fonction segmentation() ici pour avoir ce format sur nos fichiers .xml. On répète l'opération pour nos titres et pour nos descriptions. Cela nous permet à la fin de toujours avec des balises pour distinguer nos deux contenus. On utilise le programme perl tokenise-utf8.pl dans cette fonction pour obtenir notre résultat. Cette fonction nous oblige à utiliser des fichiers temporaires afin d'effectuer notre changement.
On utilise différents programmes pour notre annotation TreeTagger. On a en entrée de cette fonction les fichiers préalablement annotés par la fonction segmentation(). Nous allons utiliser deux programmes :
On récupère en sortie un fichier .xml annoté par TreeTagger.
Cette fonction prend en entrée le fichier .txt contenant le contenu textuel de notre rubrique. On va lancer deux opérations :
On récupère en sortie deux fichiers annotés par Udpipe. L'un au format .xml et l'autre au format .txt (CoNNL)
Le programme est sensiblement le même que celui de perl pour la BaO1. On ajoute à la fin nos deux fonctions pour l'annotation. La fonction de segmentation a été ajouté dans la fonction de parcours de l'arborescence.
Rubrique | Sortie Udpipe (CoNNL) | Sortie Udpipe (xml) | Sortie TreeTagger (xml) |
---|---|---|---|
France | resultat-france.udpipe | resultat-france.xml | resultat-france.xml |
Europe | resultat-europe.udpipe | resultat-europe.udpipe.xml | resultat-europe.xml |
International | resultat-international.udpipe | resultat-international.udpipe.xml | resultat-international.xml |