Etiquettage via Cordial et tretagger

    Dans cette étape, nous allons faire appel aux fichiers qu’on a obtenu dans l’étape précédente. Ce sont les fichiers XML et TXT qui contiennent les titres et les descriptions afin de les étiqueter. Pour y faire, nous allons utiliser les logiciels Cordial et Treetagger.

    Info : Le logiciel Cordial, est un logiciel payant, c’est pour cela nous étions obligés d’utiliser la version achetée qui installée sur les ordinateurs de la fac pour étiqueter les fichiers.

    J’ai mis une journée entière afin d’étiqueter mon corpus de quatre rubriques, c’est hallucinant, mon ordinateur a tellement chauffé, que je pensais qu’il allait exposer. Mais finalement j’ai obtenu les résultats attendus. Les résultats vous les trouverez en bas de page :

    Voici un image de logiciel Cordial, lorsque vous sélectionnez le fichier que vous allez étiqueter, vous allez avoir une fenêtre qui apparaitra qui contient des options et vous devez coucher les options comme dans l'image suivant :

    Digne d'attention : Le logiciel Cordial ne traite pas les fichiers codés en utf8, c'est pour cela, il faut changer l'encodage en iso-8859-1 afin de lancer l'opération.


Treetagger : Etiquetage morpho-syntaxique et Lemmatisation



L’étiquetage morpho-syntaxique consiste à associer une étiquette morpho-syntaxique à chaque mot, il repose sur la segmentation en mots et en phrases effectuée préalablement. La lemmatisation consiste à associer un lemme à chaque mot du texte. Si le mot ne peut etre lemmatis (nombre, mot étranger, mot inconnu), aucune information ne lui est associée. La lemmatisation suppose que l’analyse morph-syntaxique a déjà été faite.

Description
TreeTageger : n’et pas un logiciel mais un outil qui permet d’annoter un texte avec des informations sur les parties du discours (genre de mo, noms, verbes, infinitifs et particules) et des informations de lemmatisation. Il a été développé par Helmut schmid dans le cadre du projet-TC dans le ICLUS (Institue for Computional Linguistics of the University of Stuttgart). TreeTagger permet l’étiquetage de l’Allemande, l’Anglais, le français, l’italien, le Deutch, l’Espagnole, le Bulgare, le Russe, le Grec, le Portugais, le Chinois et les texte français anciens. Il est adapté à d’autres langages si des lexiques et des corpus étiquetés manuellement sont disponible.

TreeTagger peut également etre utilisé coimme un « chunker » pour l’anglais, l’allemande et le français (étiquetage des parties du discours, délimitation des groupes syntaxiques, étiquetage des groupes). Installation sous Linux Pour installer Treetagger, on peut consulter le site web suivant : http://www.ims-uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
En résumé, il faut :
1- Créer un répertoire nommé TreeTagger
2- Télécharger les archives des tools/TreeTagger
3- Dans le répertoire tools/TreeTagger, exécute install-tagger

Utilisation : La commande d’étiquetage classique avec TreeTagger est la suivante : Tree-tagger [options] parametres texte d’entrer texte de sortie

L'étiquetage via TreeTagger est inclut dans notre script perl. Voici un image de cette partie qui va générer un fichier étiqueté en xml.

Et Voilà les fichier obtenus étiquetés par Cordial et Treetagger

CORDIAL

FICHIER RUBRIQUE ECONOMIE

FICHIER RUBRIQUE CULTURE

FICHIER RUBRIQUE CINÉMA


TREETAGGER


FICHIER XML RUBRIQUE ECONOMIE

FICHIER XML RUBRIQUE CULTURE

FICHIER XML RUBRIQUE CINÉMA