Projet Encadré

BAO2 : Étiquetage des tokens de manière morphosyntaxique

Dans la dernière étape, nous avons extrait tous les titres et les descriptions dans l'arborescence des fils RSS du Monde, l'objectif est de construire un fichier structuré en XML à l'aide un script perl qui parcourt l'arborescence de fichiers et applique un traitement d’étiquetage sur chacun des fichiers rencontrés au moment du parcours.

Cette fois-ci, nous avons choisi des rubriques qui nous intéresse : ''à la une'', ''international'' et ''entreprise'' comme des cibles, et il faudra un programme qui permet de donner l'étiquette aux données textuelles extraites à l'aide de deux logiciels Treetagger et Cordial, ce programme est basé sur le script réalisé à étape 1, c'est à dire qu'il est capable d'extraire les titres et les descriptions, mais aussi capable de traiter ces données extraites, nous reviendrons sur le script plus tard.

Cliquer pour afficher le script perl

Cordial : Cordial est un logiciel de correction grammaticale et d'aide à la rédaction pour la langue française pour Microsoft Windows et Mac OS X, il est installé sur la machine en salle info.

Il prend le fichier en format txt comme entrée et il ne traite que les textes codés en ISO-latin1. Au final, avec cet outil nous avons obtenu un fichier en format cnr qui est composé par trois colonnes : token, lemme, et la catégorie grammaticale, et il se trouve dans chaque colonnes des informations correspondantes.

Treetager : Treetagger est un outil pour l'annotation du corpus avec le forme part-of-speech et lemme, pour l'utilisation de cet outil, il s'agit de 3 manières : soit télécharger et installer ce logiciel directement via le site officiel du Treetagger, soit employer le script en perl construit par l'enseignant, soit télécharger l'exécutable du Treetagger, il est disponible pour un environnement Unix comme Ubuntu et MacOSX(nous avons finalement utilisé ce dernier), mais aussi pour windows. Dans notre cas, nous avons téléchargé l'exécutable fourni par l'enseignant, et il faudra modifier le droit d'utilisation tout simplement avec une ligne de commande :

chmod +x tree-tagger

Ce logiciel est intégré dans le programme perl qui fait le parcours de l'arborescence et l'extraction. Le programme perl prend les fichiers au format XML et le nom de répertoire comme entrée. Au sein de notre programme, il appelle lui-même, d'autres scripts perl tokenise-utf8.pl et programmes externes french-utf8.par. Finalement, le programme perl va produire un fichier XML où les textes sont étiquetés.

Voici nos résultats issu de programme de l'étiquetage :

Résultat pour la rubrique ''à la une''

Étiquetage via cordial

Étiquetage via Treetagger

Résultat pour la rubrique ''entreprise''

Étiquetage via cordial

Étiquetage via Treetagger

Résultat pour la rubrique ''international''

Étiquetage via cordial

Étiquetage via Treetagger