PROJET ENCADRE 2 - L8TI003

BOITES À OUTILS

BAO2 "étiquetage du texte"

BAO2 consiste à étiqueter les contenus textuels extraits avec la BAO1 d'une manière automatique avec Treetagger et UDpipe (annotation en morpho-syntaxe et en dépendances)

Script Perl

Download

Bao2_Jiaxin_He.pl

Voici le détail :

On fait deux sous programmes dans le but d'annoter les fichiers sortis de la phase précédante en utilisant outils udpipe et treetagger. Ici, on

Les fichiers sortis :

Le fichier annoté par udpipe au format xml :

Le fichier annoté par treetagger au format xml :

Commande Perl

Script Python

Download

Bao2_Jiaxin_He.py

Voici le détail :

Pour la partie python, on import le sous module de spaCY, spacy_udpipe pour effectuer le pos-tagging. Ensuite, on fait le parcours de rubrique pour chercher les fichiers xml.

Les fichiers sortis :

Le fichier annoté par udpipe au format xml :

Résultats 3210 avec Perl

perl - sortie txt - 3210

perl - sortie xml annoté avec TreeTagger - 3210

perl - sortie xml annoté avec UDpipe - 3210



Résultats 3210 avec Python

python - sortie txt - 3210

python - sortie xml - 3210



Résultats 3234 avec Perl

perl - sortie txt - 3234

perl - sortie xml annoté avec TreeTagger - 3234

perl - sortie xml annoté avec UDpipe - 3234



Résultats 3234 avec Python

python - sortie txt - 3234

python - sortie xml - 3234