Boîtes à outils 2

Etiquetage Talismane & TreeTagger




Présentation de la boîte


Le but de cette boîte à outils est d'annoter morphosyntaxiquement les données textuelles extraites des fils RSS. Il s'agit donc d'une version améliorée de la BAO1 : elle étiquette avec deux méthodes les descriptions et titres récupérés.

- Avec TreeTagger : le fichier de sortie est au format XML ; chaque token est associé à son lemme et à sa catégorie grammaticale avec des balises <data> aux attributs spécifiques type et lemma.

- Avec Talismane : on récupère en sortie un fichier TXT, proche du format CoNLL. Chaque token est présenté sur une ligne avec des annotations séparées par des tabulations : ID, lemme, catégorie grammaticale, mais également des informations relatives au genre, à la personne, au nombre et aux relations de dépendance. L'analyse effectuée par Talismane est donc plus riche que celle de TreeTagger.

Le texte brut extrait est également stocké dans un fichier TXT.



Fonctionnement


Comme pour la BAO1, le programme prend en premier argument le répértoire à explorer (ici 2019) et en deuxième argument la rubrique spécifique à traiter. Nous l'avons donc lancé 4 fois pour les 4 rubriques choisies : Cinéma, Technologie, Planète, et International.
Le programme extrait dans un premier temps les données textuelles (titre et description de chaque article) puis fait appel à 3 fonctions : une fonction de nettoyage, une fonction d'étiquetage avec TreeTagger, et une fonction d'étiquetage avec Talismane. Le fonctionnement est détaillé avec des commentaires dans le script disponible ci-dessous.

Sript Perl :



Télécharger le programme


Résultats


Le traitement était extrêmement long, le programme a tourné plus de 4h pour la rubrique 'international' ! Les fichiers XML étiquetés avec TreeTagger sont très lourds.
Comme prévu, les annotations Talismane sont plus riches que celles de TreeTagger.


Rubrique Texte brut TreeTagger Talismane
International (3210)
Planète (3244)
Cinéma (3476)
Technologies (651865)


La suite dans la boîte à outils 3!


Ecrivez-nous!


Nous sommes deux étudiantes en TAL très passionnées et motivées! N'hésitez pas à nous écrire pour toute information sur ce projet (ou offre de stage ou d'emploi).