BàO2

- Annotation morphosyntaxique des titres et description

Introduction

Avec la BàO1, nous avons produit deux sorties, une sortie XML et une sortie TXT. Ici nous allons enrichir les deux sorties en réalisant un étiquetage morphosyntaxique. Différents outils d'étiquetage sont utilisés en fonction du type de fichier d'entrée. Nous avons choisi TreeTagger pour la sortie XML et Talismane pour la sortie TXT.

Etiqueteurs

TreeTagger est un outil d'étiquetage de POS tag et de lemme. Il est développé par Helmut Schmid au sein de l'Université de Stuttgart. Il travaille sur 23 langues, et il permet d'entraîner de nouveaux modèles étant fourni d'un lexique et un corpus d'entraînement manuellement annoté. Il prend en entrée un texte brut, et il renvoie au format tabulaire les résultats d'étiquetage.

Talismane est un autre outil d'étiquetage morphosyntaxique. Il est écrit en Java, développé par Assaf Urieli au laboratoire CLLE-ERSS. Il applique 4 tâches sur le corpus : le découpage de phrase, la tokenisation, l’étiquetage et le parsing. Pour l'instant il ne gère que les langues anglaise et française, cependant il renvoie en sortie un fichier au format conll. Ce format tabulaire nous propose 10 champs d'information pour chaque token : index, form, lemma, UPOS, XPOS, feats, head, deprel, egov, misc.

Script

En se basant sur le premier script perl-regex, qui s'occupe de l'extraction du titre et description, on peut donc partir des données textuelles qui nous intéressent pour effectuer l'étiquetage morphosyntaxique.

Il est à noter que, dans le processus d'annotation Talismane, pour garder la distinction entre les titres et les descriptions, nous avons ajouté un symbole § à la fin de chaque description, qui nous facilitrait le travail dans la BàO3.



Résultats

Dans le tableau ci-dessous, nous présentons les résultats de nos deux taggueurs. La sortie treetagger passe directement à la BàO suivante tandis que la sortie Talismane devrait être transformée en xml par un script talismane2xml-version-sans-titrevsdescription.pl pour certaines méthodes de la BàO3.

ID Rubrique Sortie Talismane Sortie Treetagger
3208 A la une sortieTalis_3208.txt sortieTT_3208.xml
3210 International sortieTalis_3210.txt sortieTT_3210.xml
3476 Cinéma sortieTalis_3476.txt sortieTT_3476.xml