BaO 2 Etiquetage

La BÀO 2 consiste à étiqueter les termes de deux sorties de la BÀO 1.

Pour étiqueter la sortie en format xml, on utilise le Treetagger en l'ajoutant dans notre script, tandis qu'on utilise le logiciel Gordial pour étiqueter le fichier en format txt.


Cordial

Ce logiciel ne traite que les textes codés en iso. On doit donc convertir le fichier txt qui est en utf-8 en iso.

Après avoir chargé le fichier, on peut obtenir le résultat qu'on veut en changeant le paramètre.

Voici le paramétre :

On obtient un fichier avec l'extention ".cnr". Il y a trois colonne : le token, le lemme et la catégorie grammatical

Le resultat obtenu est le fichier Rubrique-3208-etiqueté-cordial et Rubrique-3210-etiqueté-cordial


Treetagger

Pour étiqueter le données nous avons utiliser le même script que celui retrouvé et disponible dans BAO.

Avant d'exécuter on doit avoir:

-le fichier langue

-le programme "tokenise-utf8.pl" : segmenter le fichier en tokens

le programme "treetagger2xml-utf-8.pl" : réécrire un fichier en format xml

Table(s)

3208-à la une 3210-international
  • titre-étiqueté-xml
  • titre-étiqueté-xml
  • description-étiqueté-xml
  • description-étiqueté-xml
  • titre-étiqueté-txt
  • titre-étiqueté-txt
  • description-étiqueté-txt
  • description-étiqueté-txt