BOITE A OUTIL 2 : PYTHON

Annotation du contenu textuel. On utiliser TreeTagger sur les fichiers .xml et Udpipe sur les fichiers .txt

I/Présentation des scripts

On lance le script depuis le répertoire PROJET-ENCADRE.

1. Parcours de l'arborescence

pour télécharger le script :

Commande pour lancer le script

Il y a quatre argument à saisir pour ce script : le dossier contenant l'arborescence, la nom-rubrique.xml, la sortie.txt et le nom de la rubrique. Etant donné que l'on doit passer par des fichiers tampon pour l'annotation TreeTagger, il faut impérativement mettre le nom de la rubrique pour la sortie.xml. On lance le script pour chaque rubrique à traiter.
Ajout des programmes TreeTagger et Udpipe

Une fois la fonction d'extraction lancé et les contenus textuels récupérés sous le format .xml et .txt annoté par Udpipe (cf extraction d'un fil ci-dessous), on va pouvoir faire l'annotation avec TreeTagger des fichiers .xml. Pour cela, on va utiliser os.system qui na nous permettre de lancer des programmes extérieurs à python. Ces programmes sont les mêmes que pour le script perl.
- Programme de segmentation pour TreeTagger : tokenise-utf8.pl
- Programme d'annotation de TreeTagger : tree-tagger.exe. Ce programme nécessite un autre programme : french-utf8.par pour l'annotation
- Programme d'ajout des balises : treetagger2xml.pl
2. Extraction du texte et annotation

pour télécharger le script :

Ce script python reprend le script de la BaO1. On y ajoute l'analyse au fur et à mesure du contenu textuel avec udpipe
- spacy_udpipe
  
  On importe le module spacy_udpipe pour notre script. On va également utiliser init_parser de spacy_conll pour avoir une sortie au format connl de notre contenu textuel. Pour cela, j'ai eu besoin d'initialiser le parser afin de pouvoir utiliser udpipe. J'ai trouvé ces informations sur spacy. Il faut également charger le modèle fr-sequoia pour l'annotation.
- Annotation Udpipe
  
  La fonction analyse_txt() permet d'annoter le texte avec udpipe et donne en sortie un format connl (.txt).

II/ Résultats

Rubrique	Sortie Udpipe (CoNNL)	Sortie Udpipe (xml)	Sortie TreeTagger (xml)
France	resultat-france.txt	resultat-france.xml	resultat-france.xml
Europe	resultat-europe.txt	resultat-europe.xml	resultat-europe.xml
International	resultat-international.txt	resultat-international.xml	resultat-international.xml

BOITE A OUTIL 2 : PYTHON

I/Présentation des scripts

1. Parcours de l'arborescence

Commande pour lancer le script

Ajout des programmes TreeTagger et Udpipe

2. Extraction du texte et annotation

spacy_udpipe

Annotation Udpipe

II/ Résultats