Boîte à Outils 2: Etiquetage

Le but de cette boîte à outils est d'annoter morphosyntaxiquement les documents créés par la première boîte à outils. On se servira ici des logiciels Cordial et TreeTagger:

Cordial:
Cordial n'acceptant que des fichiers encodés en ISO-8859-1, il a été nécessaire de forcer l'encodage du fichier texte en ISO grâce à la commande bash "iconv" intégrée dans le script principal:
system ("iconv -c -f utf-8 -t iso-8859-1 sortietxt_$rubrique.txt > SortieISO_$rubrique.txt");
system ("rm sortietxt_$rubrique.txt");

Le fichier récupéré, SortieISO_3242.txt est maintenant prêt pour être annoté dans Cordial, il est cependant nécessaire de ne cocher que les options suivantes pour l'étiquetage

Suite à cela, nous obtenons un fichier nommé SortieISO_3242.cnr contenant toutes les annotations créées par Cordial, prêt à être utilisé par la boîte à outils suivante : Fichier cordial


TreeTagger:
L'étiquetage par Treetagger se passe directement dans le script principal grâce à la procédure Etiquetage, qui intervient après avoir récupéré le titre et la description d'un article dans la procédure parcoursaborescence. Elle nécessite la présence de 3 fichiers dans le répertoire principal: tree-tagger.exe, french-utf8.par, ainsi qu'un fichier texte.
Visualiser la fonction Etiquetage
Les fichiers texte ainsi créés(titresTAGS et descriptionsTAGS) nécéssitent cependant d'être transformés en fichier XML afin de pouvoir en extraire les patrons morphosyntaxiques souhaités grâce à des feuilles de style XSL. Ayant rencontré des problèmes à l'utilisation du script treetagger2xml-utf-8 fourni par M. Fleury, il a été nécessaire d'en créer un transformant les fichiers textes taggés en XML. Ce script est également intégré dans le programme principal.
Visualiser le script TreeTag2xml.pl
Voici comment il est intégré dans le programme principal (hors de toute procédure, à la fin de l'extraction):
system ("perl treetag2xml.pl titresTAGS_$rubrique.txt titresTAGS_$rubrique.xml");

Suite à cela: nous obtenons les fichiers XML suivants: TitresTAGS_3242.xml et DescriptionsTAGS_3242.xml qui sont prêts à être utilisés par nos feuilles de styles XSL dans la Boîte à Outils 3.

Attention: ces deux fichiers XML étant très volumineux, il est possible que votre navigateur plante à l'affichage

  • La boite à outils 3

    Grâce à cette étape, nous pouvons extraire des chaines de mots correspondants à des patrons morphosyntaxiques choisis (par exemple NOM ADJECTIF) dans les titres et descriptions précédemment collectés.

  • La boite à outils 4

    Enfin, nous transformerons les patrons morphosyntaxiques en graphes afin de les visualiser