Boite à Outils 2

Maintenant, c'est le moment de l'étiquetage des 2 sorties(TXT & XML) du BàO 1, par Cordial et par Treetagger.

Installation

D'abord il faut installer Cordial et Treetagger sur la machine. Surtout, le Treetagger fonctionne avec le fichier de langue, le script qui convertit le format issu de l'étiquetage vers XML, et le programme de segmentation en mot(e.g.'tokenizer').


Treetagger

Pour faire marcher l'etiquetage par Treetagger, on insere les codes appropries dans le script precedent, comme ca j'ai obtenu le script complet pour l'extraction et l'etiquetage avec rubrique de la sortie XML comme ci-dessous :






J'ai fait tourner ce programme pour les rubriques Culture(3246), Média(3236) et Cinéma(3476) comme dit avant, et il m'a fait attendre environ 1-3 heures pour finir chacun.

Exemple de la sortie par Treetagger:





Cordial

Pour l'étiquetage par Cordial, j'ai préfère la machine où le Cordial marche sans couture, plutot que le Mac. Le Cordial est installé sur les machines à Paris 3 et Inalco, ou encore sur les ordinateurs de chers collègues. Mais quand on envoie et reçois ces fichiers entre des différents machines, il faudrait faire attention à l'encodage, parce que les éditeurs textuels du Mac n'acceptent pas en général l'encodage ISO 8859-1 et sa conversion en UTF8 aussi. Dès que mes fichiers sont arrivés dans une autre machine, d'abord j'ai converti l'encodage en ANSI pour faire adapter au Cordial en ne pas détruisant tous les caractères. Et quand j'ai reçu les fichiers traités par Cordial dans ma machine Mac encore, j'ai converti ces fichiers en format .cnr au format .txt en convertissant l'encodage en utf-8. Comme ça j'ai bien gardé mes fichiers entièrement.
S'il se passe bien, le résultat est comme l'exemplaire ci-dessous:



Après ce procesus de BaO3, j'ai eu 3 fichiers entiers étiquetés par Treetagger et 3 fichiers entiers étiquetés par Cordial, comme ce que j'ai pris 3 rubrique depuis le début.