OBJECTIFS :

À l'aide de la boîte à outil 2 , nous avons comme objectif  d'effectuer du Pos-Tagging automatique à l'aide des outils d’étiquetage ( Pour ce projet, nous allons utiliser TreeTgger et UDpipe) .

Deux  annotations seront réalisées :

- Annotation en morphosyntaxe (TreeTagger)

- Annotation  en dépendances(UDpipe)

Dans cette boîte à outils, perl occupe une proportion importante, car nous avons à notre disposition deux scripts fournis par Monsieur Fleury pour la transformation des fichiers annotés en XML. 

Pour avoir des résultats plus agréables visuellement, ils sont modifiés pour que les fichiers contiennent que des informations qui nous sont utiles et que la représentation soit en harmonie.

Perl Script

Ligne de commande pour lancer le programme:
perl Bao2.pl ./2021 3210(3234/3246)
(On se situe dans le répertoire BAO)
Par rapport au programme de la BÀO1, 3 nouvelles fonctions sont intégrées pour effectuer le traitement d'annotation :
- Segmentation avec TreeTagger.
- Étiquetage avec TreeTagger.
- Étiquetage avec UDpipe.

Non seulement dans le programme principal il faut ajouter l'exécution des nouvelles fonctorialités, il faut aussi faire attention à ce qu'on doit modifier ou pas dans la fonction de traitement.

Quand on effectue a segmentation, il faut faire attention à ne pas modifier le fichier de sortie d'extraction des titres et description en Txt mais uniquement celui en XML.
UDpipe prend des phrases en entier et annoter la relation de dépendance. Si nous mettons un fichier d'entrée  où chaque token occupe une ligne, l'UDpipe va prendre ces phrases contenant qu'un mot et nous aurons pas la relations de dépendance de chaque phrase pour poursuivre le traitement en BÀO 3.

Python Script

Ligne de commande pour lancer le programme:
python Bao2.pl ./2021 3210
(On se situe dans le répertoire BÀO)

Pour le programme en python , j'ai fait le chois d'appeler PERL car il m'est important de garder les sorties identiques pour pouvoir continuer les traitement suivants.



Les scripts et les résultats:
Langage Script
PERL SCRIPT 
PYTHON SCRIPT
PERL
UDP2XML