BaO 2 Etiquetage
La BÀO 2 consiste à étiqueter les termes de deux sorties de la BÀO 1.
Pour étiqueter la sortie en format xml, on utilise le Treetagger en l'ajoutant dans notre script, tandis qu'on utilise le logiciel Gordial pour étiqueter le fichier en format txt.
Cordial
Ce logiciel ne traite que les textes codés en iso. On doit donc convertir le fichier txt qui est en utf-8 en iso.
Après avoir chargé le fichier, on peut obtenir le résultat qu'on veut en changeant le paramètre.
Voici le paramétre :
On obtient un fichier avec l'extention ".cnr". Il y a trois colonne : le token, le lemme et la catégorie grammatical
Le resultat obtenu est le fichier Rubrique-3208-etiqueté-cordial et Rubrique-3210-etiqueté-cordial
Treetagger
Pour étiqueter le données nous avons utiliser le même script que celui retrouvé et disponible dans BAO.
Avant d'exécuter on doit avoir:
-le fichier langue
-le programme "tokenise-utf8.pl" : segmenter le fichier en tokens
le programme "treetagger2xml-utf-8.pl" : réécrire un fichier en format xml