Dans la boite à outils 2 nous devons étiqueter les titres et les descriptions récupérés avec la boite à outils 1 et pour cela nous allons utiliser un outil d’annotation qui est le TreeTagger.

Le TreeTagger peut être intégré directement dans le script avec des lignes de commande.

La première étape du TreeTagger consistera à segmenter les textes en utilisant tokenise-fr.pl qui se trouve dans le répertoire cmd du TreeTagger suivis de l’étiquetage des fichiers segmentés.

L’intégration des commandes TreeTagger se fera sur le script de la boite à outil 1, nous allons créer un répertoire de sortie pour récupérer le résultat.

    system("perl /cygwin/home/TreeTagger/cmd/tokenise-fr.pl $temp | /cygwin/home/TreeTagger/bin/~
            tree-tagger /cygwin/home/TreeTagger/lib/french-utf8.par -lemma -token -no-unknown ~
            -sgml > etiquetage.txt");# treetagger2xml
    system("perl /cygwin/home/TreeTagger/cmd/treetagger2xml.pl etiquetage.txt");
    open(TaggedOUT,"<:encoding(utf-8)","etiquetage.txt.xml");

Nous allons aussi créer une variable cette fois pour stocker les titres et les descriptions étiquetées.

# Initialisation des variables qui contiendrons les flux de sortie
my %dicoTITRES=();
my %dicoDESC=();
my %dicoRUB=();

Comme dans la première boite a outils il faut aussi enlever les doublons avant de commencer l’étiquetage.

# Supprimer les doublons
if (!(exists $dicoTITRES{$titre}) and (!(exists $dicoDESC{$desc}))){     
    $dicoTITRES{$titre}++;
    $dicoDESC{$desc}++;
    my $titre_tag = &etiquetage($titre);
    my $desc_tag = &etiquetage($desc);
    $texteXML.="<item>\n<title>$titre</title>\n<description>$desc</description>\n</item>\n";
    $XMLtagged.="<item>\n<title>\n$titre_tag</title>\n<description>\n$desc_tag</description>\n</item>\n";   
    print OUTTXT "$titre\n";
    print OUTTXT "$desc\n";
    }

Le script de la boite à outils 2 nous retournera après ENORMEMENT DE TEMPS un dossier BAO1 qui contient chaque rubrique en .txt et en .xml, et un dossier BAO2 qui contient des fichiers .xml contenant les textes annotés.

Lien vers le projet

Université Paris X

Site PLURITAL