BàO 2 Etiquetage des informations via TreeTagger et Cordial.

La deuxième partie du projet a pour but de faire un étiquetage morpho-syntaxique des fichiers de sortie de la BAO1. Nous utilisons deux méthodes pour faire l’étiquetage : TreeTagger et le logiciel Cordial.

Pour produire la sortie XML, nous utilisons deux scripts perl et le programme Treetagger que nous intégrons dans la chaîne de traitements à l'aide de la commande perl system(). En ce qui concerne les scripts perl,tokenise-utf8.pl nous permet de segmenter le texte à traiter en tokens, tandis que treetagger2xml-utf8.pl nous permet d'obtenir une version xml de la sortie de Treetagger.

1 - Etiquetage avec treetagger

Cette étape est intégrée au programme Perl. Le programme ...
- parcourt l'arborescence de fichiers,
- dès qu'il trouve un fichier de la rubrique choisie, il en extrait le contenu textuel,
- tag le texte extrait avec Treetagger
- écrit le texte taggé dans un fichier structuré XML
- parcourt l'arborescence de fichiers...

Voici un exemple de la sortie xml étiquetée avec treetagger

2- ETIQUETAGE AVEC CORDIAL

Comme nous l'avons expliqué précédemment (BAO 1), le contenu textuel extrait est aussi écrit en sortie dans un fichier texte encodé en UTF-8. C'est sur ces fichiers que nous travaillerons avec l'outil Cordial. L'étiquetage avec cordial est beaucoup moins long et fastidieux que celui effectué avec Treetagger. Les "difficultés" que nous avons rencontrées : La première est que Cordial ne traite pas les fichiers en UTF-8. Il suffira donc de ré-encoder chaque fichier texte en ISO-8859-1.


La deuxième difficulté est le fait que cordial ne fonctionne pas sur macOS, nous avons dû donc faire l'étiquetage avec cordial sur un PC de nos camarades.





Sortie Cordial 3210






Sortie Cordial 3224






Script perl BàO2