BO2

Étiquetage avec TreeTagger et Talismane

Qu'est-ce que TreeTagger et Talismane ?
TreeTagger est un outil qui permet d'annoter un texte en part-of-speech (parties du discours), il intègre également un lemmatiseur. Il peut être utiliser dans de nombreuses langues de divers horizons comme le français, le suédois, le russe, le chinois, le swahihi... Cet outil doit prendre en entrée une liste de token.
Talismane est un analyseur syntaxique qui permet de passer d'un texte brut à un réseau de dépendances syntaxiques, il permet de réaliser des découpage en phrases, de segmenter en mots, d'étiqueté et de faire du parsing.


Présentation de la boîte à outils n°2

Comme nous pouvons le remarquer, cette boîte à outils reprend les éléments de la boîte à outils 1 avec quelques ajouts.

Tout d'abord, nous pouvons remarquer qu'il y a une nouvelle sortie pour ce programme qui contiendra le résultat obtenu grâce à Talismane.

Nous avons également besoin d'une nouvelle variable "titredescriptionglobal" qui contiendra le titre suivi d'un retour à la ligne et de la description suivi d'un "§" pour signaler un changement de paragraphe et d'un retour à la ligne.

On crée 2 nouvelles variables qui comprendront le titre étiqueté pour l'une et la description étiquetée pour l'autre. Pour réaliser un étiquetage, nous faisons appel à une fonction et pour la sortie xml, nous ajoutons les balises qui conviennent (titre, description et item).

Avant d'utiliser Talismane, nous mettons le contenu de la variable "titredescriptionglobal" dans un fichier puis nous pouvons lancer l'analyseur syntaxique Talismane à l'aide de la commande "system("java -Xmx1G -Dconfig.file=../../TALISMANE/talismane-fr-5.0.4.conf -jar ../../TALISMANE/talismane-core-5.1.2.jar --analyse --sessionId=fr --encoding=UTF8 --inFile=bao1_test.txt --outFile=bao1_test.tal")".Puis le résultat est envoyé dans un fichier talismane.

Passons maintenant à la fonction "etiquetage". Nous donnons à la variable titre, l'argument 0 et à description l'argument 1. Nous mettons les résultats contenu dans la variable titre dans un fichier puis nous faisons appel à l'étiqueteur TreeTagger à l'aide de la commande system ("perl -f tokenise-utf8.pl temporaire.txt | ./tree-tagger.exe french-utf8.par -token -lemma -no-unknown > test.txt.pos") et system ("perl treetagger2xml-utf8.pl test.txt.pos utf8"). System permet de lancer la commande telle qu'elle sans qu'elle soit interprété par le programme qu'on utilise. Le résultat est mis dans un fichier que l'on lit puis que l'on met dans une variable. Pour l'étiquetage de la description, il s'agit du même mécanisme.

Résultat

Voyons maintenant concrètement ce que donne les résulats sur le corpus du Monde de 2020 dans la rubrique internationnal : en premier, nous avons le fichier txt qui contient le texte brut sans ajout, avec seulement le titre et la description, puis nous avons le fichier talismane où nous pouvons voir pour chaque mot un étiquetage morphosyntaxique et enfin nous avons le fichier xml avec l'étiquetage intégré dans des balises.

Rubrique international : Résultat txt | Résultat talismane | Résultat xml

Rubrique culture : Résultat txt | Résultat talismane | Résultat xml

Rubrique à la une : Résultat txt | Résultat talismane | Résultat xml