OBJECTIFS :

À l'aide de la boîte à outil 2 , nous avons comme objectif d'effectuer du Pos-Tagging automatique à l'aide des outils d’étiquetage ( Pour ce projet, nous allons utiliser TreeTgger et UDpipe) .

Deux annotations seront réalisées :

- Annotation en morphosyntaxe (TreeTagger)

- Annotation en dépendances(UDpipe)

Dans cette boîte à outils, perl occupe une proportion importante, car nous avons à notre disposition deux scripts fournis par Monsieur Fleury pour la transformation des fichiers annotés en XML.

Pour avoir des résultats plus agréables visuellement, ils sont modifiés pour que les fichiers contiennent que des informations qui nous sont utiles et que la représentation soit en harmonie.

Perl Script

Ligne de commande pour lancer le programme:
perl Bao2.pl ./2021 3210(3234/3246)
(On se situe dans le répertoire BAO)
Par rapport au programme de la BÀO1, 3 nouvelles fonctions sont intégrées pour effectuer le traitement d'annotation :
- Segmentation avec TreeTagger.
- Étiquetage avec TreeTagger.
- Étiquetage avec UDpipe.

Non seulement dans le programme principal il faut ajouter l'exécution des nouvelles fonctorialités, il faut aussi faire attention à ce qu'on doit modifier ou pas dans la fonction de traitement.

Quand on effectue a segmentation, il faut faire attention à ne pas modifier le fichier de sortie d'extraction des titres et description en Txt mais uniquement celui en XML.
UDpipe prend des phrases en entier et annoter la relation de dépendance. Si nous mettons un fichier d'entrée où chaque token occupe une ligne, l'UDpipe va prendre ces phrases contenant qu'un mot et nous aurons pas la relations de dépendance de chaque phrase pour poursuivre le traitement en BÀO 3.

Python Script

Ligne de commande pour lancer le programme:
python Bao2.pl ./2021 3210
(On se situe dans le répertoire BÀO)

Pour le programme en python , j'ai fait le chois d'appeler PERL car il m'est important de garder les sorties identiques pour pouvoir continuer les traitement suivants.

Perl (UDpipe-to-xml)

Ce script est intégré dans le programme de BÀO2.
Il se situe dans le répertoire d'Udpipe.
Pour bien faire la transformation, il faut d'abord bien observer les balises dans la sorties xml de TreeTagger et le fichier en Conll d'UDpipe.

Les lignes impaires sont des débuts des phrases, nous mettons que les balises ouvrantes.
Les lignes paires sont où les balises d'un item se termine et un autre commence, donc on doit écrire une balise fermante et une balise ouvrant.

Nous parcourons chaque ligne, les conll ont en tous 10 colonnes et chaque information est séparés par une tabulation. Nous pouvons constater que dans plusieurs colonnes il n'y a pas d'informations, nous pouvons donc ne pas les écrire dans notre sortie, ainsi nous aurons un fichier de sortie en XML bien structuré et propre.

Attention ici dans chaque phrase, vaux mieux garder une forme de balises uniforme comme <data>, ceci va nous faciliter le traitement après pour les relations et la graphe.

Les scripts et les résultats:

Langage	Script
PERL	SCRIPT
PYTHON	SCRIPT
PERL	UDP2XML

Les scripts et les résultats:

Langage utilisé	N° de Rubtique	Sorties
PERL	3210	TreeTaggerXML
PERL	3210	UDpipeCONLL
PYTHON	3210	UDpipeXML
PERL	3234	TreeTaggerXML
PYHTON	3234	UDpipeCONLL
PYHTON	3234	UDpipeXML
PERL	3246	UDpipeXML
PERL	3246	UDpipeCONLL
PYTHON	3246	TreeTaggerXML

OBJECTIFS :

Perl Script

Sample Title

Sample Title

Sample Title

Sample Title

Sample Title

Python Script

Perl (UDpipe-to-xml)

Les scripts et les résultats:

Les scripts et les résultats: