Bao 2 - Étiquetage de données textuelles

La deuxième boite-à-outil nous permet l'étiquetage des données. Nous avons utilisé donc deux outils: Treetagger et Talismane qui sont deux outils d'annotation des parties de discours, en les intergrant dans le script de la BàO1.

Presentation de Treetagger et Talismane

Treetagger (https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) est un étiquetteur morpho-syntaxique permettant l'annotation des parties du discours.Cet outil a été conçu par Helmut Schmid dans le cadre du TC project, au sein du Institut für Maschinelle Sprachverarbeitung de l'Université de Stuttgart.

Contrairement à Talismane, il ne propose pas un prétraitement de tokenisation (et non pas de normalisation), et il a pourtant besoin de recevoir en entrée un corpus déjà tokenisé, ce qui nous oblige notamment à utiliser un programme supplémentaire qui s'en occupe.

L'outil Talismane (https://github.com/joliciel-informatique/talismane) est un analyseur syntaxique pour la langue française écrit intégralement en Java. Dans le but de transformer un texte brut en un réseau de dépendances syntaxiques, Talismane utilise une analyse en cascade qui intègre quatre étapes successives : le découpage en phrases, la segmentation en mots (ce qui est notamment contraire à TreeTagger), l'étiquetage (qui attribue à chaque token une catégorie morphosyntaxique), et le parsing (qui sert à réperer et étiqueter les dépendances syntaxiques entre les mots). Il faudrait noter que, à la différence de TreeTagger, il ne fait pas partie d'autres langages de programmation.

Comment faire ...

Afin d'utiliser la fonction d'étiquetage de Treetagger, on a intégré deux autre programmes. Le premier est tokenise-utf8.pl , un script qui permet de segmenter le contenu textuel en tokens et le deuxième treetagger2xml-utf8.pl qui permet de transforme la sortie du Treetagger au format XML.

La fonction de Perl 'system' est adopté afin d'automatiser les traitements avec ces deux outils.
fonction_system

Quant à Talismane, il a suffi de lancer le programme dès notre script Perl.

Le script à télécharger : bao2_treetager_talismane.pl

La commande pour lancer : perl bao2_treetager_talismane.pl Path_de_fichier Rubrique

Résultats

  • Sortie XML TreeTagger :

  • Rubrique à la une - Nº3208 : sortie-slurp_3208.xml
    Rubrique Culture - Nº3246 : sortie-slurp_3246.xml

    Voici un aperçu des fichiers d'output Treetagger xml de la rubrique 3246:

    bao2_treetagger_xml

  • Sortie TXT Talismane:

  • Rubrique à la une - Nº3208 : sortietalismane-slurp_3208.txt
    Rubrique Culture - Nº3246 : sortietalismane-slurp_3246.txt

    Voici un aperçu des fichiers d'output Talismane txt de la rubrique 3246:

    bao2_talisame_txt