La Boîte à Outils 2

Nous avons vu que la BAO1 génère un fichier txt écris en sortie sur deux types de fichiers : txt et XML. Nous allons donc maintenant passer aux étiquetages.

C'est bien joli tout ça, mais on en fait quoi après ? Ça, on le verra dans la BAO3 où on utilisera des patrons, mais c'est une autre histoire.

Étiquetage avec treetagger

Notre Boite à Outils 2, consiste tout d’abord à compléter notre script précédant : Nous allons y intégrer le script d’étiquetage avec Treetagger. Avec ce script nous allons pouvoir parcourir l’arborescence,nous allons extraire le contenu textuel de la rubrique que nous avons choisi :


l’étiqueter avec Treetagger et au final l’écrire dans un fichier de sortie XML.


Donc, notre texte va etre étiqueté en sortie XML.

Voici le script

Voici les fichiers de résultats :

3208.txt
3208.xml
3210.txt
3210.xml
3224.txt
3224.xml

Nous voyons que les fichiers txt qui ont été générés sont encodé en utf-8. Nous avons vu en cours que pour pouvoir les charger dans le logiciel cordial, il faut d’abord les encoder en ISO-8859-1. Cependant, lorsque nous avons utilisé cet encodage, nous avons obtenu des résultats mal-encodés, c’ést-à-dire avec des caractères mal-affichés. Nous avons donc essayé d’utiliser l’encodage en ANSI et cette-fois ci nous avons obtenu de bons résultats !