La boîte à outils 2, le retour

La boîte à outils 2 reprend les données textuelles extraites par la boîte à outils 1, pour les étiquetés par le biais de deux programmes : Cordial et TreeTagger.

Avec TreeTagger

Le script est téléchargeable ici.
En réalité, il s'agit plus d'une amélioration de la première Boîte à Outils que d'un script à part entière. La structure du programme principal est la même, mais on ajoute un nouveau programme, qui appelle TreeTagger, et un nouveau fichier pour stocker les sorties étiquetées. Voici le détail du fonctionnement du sous-programme :
  • On récupère grâce à la variable spéciale @_ les valeurs titre et résumé précédemment extraites.
  • On génère un fichier temporaire texteaétiqueter.txt qui abritera au fur et à mesure les résumés à étiqueter.
  • On appelle TreeTagger par le biais de la commande perl system.
    On ajoute les options -lemma (imprime le lemme), -token (imprime le token) et -no-unknown (n'imprime rien si le lemme n'est pas connu).
  • Puis on écrit le tout dans une variable, on réalise le même traitement pour les descriptions, et on renvoie les résultats au programme appelant.
  • Le résultat est la production en sortie d'un fichier XML supplémentaire par rapport à la BaO 1, qui contient le résultat de l'étiquetage des fichiers. Un extrait est visible ici.

A lire : Manuel d'utilisation de TreeTagger
Pour l'élaboration du script, nous avons utilisé un extrait des fils de 2008 sur deux journées. Puis nous l'avons lancé sur l'archive 2008 d'origine, et le traitement a quand même pris plus de 40 minutes. L'archive est visible ici.

Avec Cordial


Cordial est un correcteur orthographique et grammatical du français édité par la société Synapse. C'est une référence dans le domaine, il est donc intéréssant de pouvoir l'utiliser. Cordial n'étant pas utilisable en ligne de commande, nous nous passerons de Perl un moment. Après avoir ouvert une des sorties de la bao1 (encodée en iso-8859-15 spécialement pour notre version de Cordial), on séléctionne l'outil d'étiquetage morpho-syntaxique :
Ensuite une boite de dialogue s'ouvre avec de nombreuses options de traitements et de sorties. Nous n'avons besoin que du minimum, soit les options suivantes :
Enfin voilà le résultat obtenu, avec sur chaque ligne la forme, le lemme et la catégorie.
Cordial étiquette selon une des 202 catégories pré-enregistrées. On peut remarquer son abilité dans la désambiguïsation, notamment pour distinguer le verbe triompher à la troisième personne du singulier, du nom qui a exactement la même forme.