BAO 2

Etiquetage des contenus textuels

La BAO permet d'étiqueter morpho-syntaxiquement les contenus qu'on a extraits avec la BAO1, de manière automatique. L'étiquetage par le programme est réalisé par l'appel dans ce dernier de deux étiqueteurs automatiques qui sont treetagger et Talismane. Treetagger avait déjà utilisé par certains lors du premier semestre dans le cours de M.Daube. Nous avons du installer les packages nécessaires au fonctionnement de Talismane. L'implémentation a été réalisée en cours. Les résultats de l'étiquetage permettront de passer à la mise en oeuvre de la BAO3.


Etiquetage Treetagger

A l'aide de la procédure sub etiquetage, on peut étiqueter chaque titre et description qui ont été récupérés. Les textes sont d'abord tokenisés à l'aide d'un programme perl qui nous a été fourni en cours. L'étiqueteur est appelé dans le programme, puis à l'aide d'un autre programme perl les données sont mises au format XML. La sortie est un fichier XML pour chacune des rubriques traitées.


Etiquetage Talismane

Dans le cas de Talismane, ce programme Java est appelé dans la procédure parcoursarborescencefichiers. Dans ce cas ce sont les fils RSS dans leur globalité qui sont étiquetés, le texte de chaque fichier étant stocké dans une variable incrémentée à chaque fois. La sortie est un fichier texte.


Commentaires

L'étiquetage à l'aide des deux étiqueteurs ayant lieu dans le même programme, le script prend beaucoup de temps à s'exécuter. En effet pour les rubriques les plus grosses, on peut avoir un temps de traitement de plus de 6h. Cela a pu être accentué par l'exécution du programme dans la machine virtuelle. En effet d'après les indications de M.Fleury, le traitement de la rubrique 3208 avait été effectué en moins de 5h sur sa machine. En choisissant d'utiliser deux étiqueteurs, on pourra analyser et comparer les résultats, les deux étiqueteurs ne présentant pas la même forme d'étiquetage. Talismane en plus de l'étiquetage morpho-syntaxique classique fourni par treetagger, affiche en sortie les relations de dépendance syntaxique entre chaque token.

Vous trouverez ci-dessous le programme BAO2, ainsi que les différents fichiers de sortie produits grâce à ce dernier.