BOITES A OUTIL 2 : PERL

Annotation du contenu textuel. On utiliser TreeTagger sur les fichiers .xml et Udpipe sur les fichiers .txt

I/ Présentation du script

Nous réutilisons les scripts de la BaO1 (explication ici) en les modifiant. En effet, on va ajouter quelques fonctions pour annoter les contenus textuels. Je présenterai seulement les fonctions ajoutées aux scripts. Il faut télécharger les scripts pour les avoir. Ce script va nous permettre d'annoter nos fichiers .xml avec TreeTagger et nos fichiers .txt avec Udpipe. Nous allons récupérer en sortie des fichiers .xml annotés par TreeTagger et des fichiers .txt annotés par Udpipe (puis convertis au format .xml). Le script est lancé depuis le répertoire PROJET-ENCADRE.

pour télécharger le script :

Temps : real 20m3.897s

Commande pour lancer le script

Il y a quatre argument à ajouter : le dossier contenant l'arborescence, la sortie.xml, la sortie.txt et le nom de la rubrique. On lance le script pour chaque rubrique à traiter. Pour utiliser spacy_udpipe et spacy_connl, j'ai du utiliser un environnement virtuelle avec la commande suivante :
Annotation avec TreeTagger

1. Segmentation pour TreeTagger

TreeTagger a besoin, pour l'annotation, que chaque token soit sur une ligne. On utilise donc la fonction segmentation() ici pour avoir ce format sur nos fichiers .xml. On répète l'opération pour nos titres et pour nos descriptions. Cela nous permet à la fin de toujours avec des balises pour distinguer nos deux contenus. On utilise le programme perl tokenise-utf8.pl dans cette fonction pour obtenir notre résultat. Cette fonction nous oblige à utiliser des fichiers temporaires afin d'effectuer notre changement.

2. Etiquettage avec TreeTagger

On utilise différents programmes pour notre annotation TreeTagger. On a en entrée de cette fonction les fichiers préalablement annotés par la fonction segmentation(). Nous allons utiliser deux programmes :
- Un programme pour annoter nos tokens : tree-tagger.exe. Ce programme nécessite un autre programme : french-utf8.par pour l'annotation.
- Un programme pour ajouter des balises sur notre annotation : treetagger2xml.pl
On récupère en sortie un fichier .xml annoté par TreeTagger.
Annotation avec Udpipe

Cette fonction prend en entrée le fichier .txt contenant le contenu textuel de notre rubrique. On va lancer deux opérations :
- Un programme pour annoter nos fichiers avec Udpipe (format .txt CoNNL en sortie). Nous avons besoin pour cela du programme udpipe.exe et du modèle fr-sequoia : french-sequoia-ud-2.5-191206.udpipe
- Un programme pour mettre notre sortie au format .xml : udpipe2xml
On récupère en sortie deux fichiers annotés par Udpipe. L'un au format .xml et l'autre au format .txt (CoNNL)
Le programme

Le programme est sensiblement le même que celui de perl pour la BaO1. On ajoute à la fin nos deux fonctions pour l'annotation. La fonction de segmentation a été ajouté dans la fonction de parcours de l'arborescence.

II/ Résultats

Rubrique	Sortie Udpipe (CoNNL)	Sortie Udpipe (xml)	Sortie TreeTagger (xml)
France	resultat-france.udpipe	resultat-france.xml	resultat-france.xml
Europe	resultat-europe.udpipe	resultat-europe.udpipe.xml	resultat-europe.xml
International	resultat-international.udpipe	resultat-international.udpipe.xml	resultat-international.xml

BOITES A OUTIL 2 : PERL

I/ Présentation du script

Commande pour lancer le script

Annotation avec TreeTagger

1. Segmentation pour TreeTagger

2. Etiquettage avec TreeTagger

Annotation avec Udpipe

Le programme

II/ Résultats