Boîte à Outils 2

La boîte à outils n°2 concerne l'étiquetage des données. Les données seront étiquetées à l'aide de deux logiciels : Cordial et TreeTagger. L'étiquetage consiste à faire l'analyse syntaxique du titre et de la description. Pour chaque mot, nous voulons son lemme et sa catégorie grammaticale.

En utilisant Cordial

L'analyse syntaxique avec Cordial se fait à partir du fichier texte brut généré par la première boîte à outils. Cependant, la version de Cordial de la fac datant d'une époque pré-Mathusalemienne (datation faite au carbone 14), le logiciel ne supporte pas l'UTF-8, ni les fichiers de plus de 2 mo. Cela nous invite à revoir la première boîte à outils afin de générer des fichiers que Cordial pourra traiter. Une autre solution serait également de faire du forcing auprès de la fac, mais cela prendrait bien trop de temps.

En utilistant TreeTagger

Avec TreeTagger, l'analyse syntaxique se fait à partir du fichier XML que la première Boîte à Outils avait généré. Malheureusement, TreeTagger ne sait pas scinder un texte, il faudra pour cela utiliser un script en Perl fourni et qui sera rangé dans le dossier de TreeTagger. Pour utiliser TreeTagger au sein de notre script, il faut utiliser la commande system qui permet d'exécuter des commandes comme si nous étions en invite de commandes.

Pour passer du fichier généré par TreeTagger à un fichier XML, Serge Fleury nous a fourni un script en Perl, mais je ne trouvais pas la structure des fichiers produits très cohérente alors il a fallu le modifier pour lui donner le résultat suivant :

perl tokenise-fr.pl sortie.txt | tree-tagger -lemma -tokens -no-unknown .lib/french-utf8.par test.txt
perl tt2xml-art.pl test.txt utf8