ETIQUETAGE VIA CORDIAL ET TREETAGGER

Le résultat de l'extraction du contenu textuel produit un fichiers texte brut. La deuxième phase (BAO 2) consiste à étiqueter les parties extraites. On utilise deux programmes pour l'annotation automatique: Cordial et Treetagger.

Les fichiers au format texte brut - .txt sont étiquetés à l'aide de l'étiqueteur morphosyntaxique Cordial qui produit en sortie un fichier au format .cnr, alors que Treetagger fait l'étiquetage de l'ensemble des données pour produire en sortie un fichier au format .xml.

Pour pouvoir réaliser l'étiquettage automatique via Treetagger et obtenir un fichier .xml en sortie on a besoin de:
1. programme Treetagger,
2. programme tokenizer qui permet la segmentation le texte en mot. tokenise-utf8.txt
3. script perl qui transforme texte brut en fichier xml - treetagger2xml-utf8.pl. treetagger2xml-utf8.txt
4. fichier de paramètres qui permet l'annotation du texte en français.

Tout cela est integré dans le script perl initial dans une procédure sous la fonction system qui permet d'intégrer Treetagger, un programme externe, dans notre script:

De cette manière le programme parcourt l'arborescence pour en extraire des titres et descriptions des rubriques qu'on avait choisies, dès qu'il les retrouve il annote le texte avec Treetagger et enfin met le contenu taggé dans un fichier au format XML, puis il continue avec le parcours d'arborescence tant qu'il trouve des motifs recherchés.
Le script final qu'on a utilisé se trouve ci-dessous: