Obejctifs
Dans cette boîte à outils, l'objectif est de produire un étiquetage des données textuelles des fils RSS produits dans la boite à outils 1. Pour ce faire, nous utilisons 2 outils différents:
- 1. Cordial :
Cordial est un logiciel de correction automatique qui permet d'analyser des données textuelles. La fonction "Etiquetage de texte" disponible dans le menu "Syntaxe" nous permettra d’effectuer l' étiquetage automatique de nos flux RSS, et de générer en sortie un fichier texte composé de trois colonnes (forme, lemme, catégorie). Vous trouverez ici une doccumentation plus détaillée sur les fonctions de ce logicel.
- 2. Treetagger :
TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation. Pour cette méthode d'étiquetage automatique, nous modifions le script en intégrant le traitement treetagger. Nous allons donc étiqueter les contenus textuels des fils RSS juste après leur extraction : en sortie, nous aurons un fichier au format XML.
Etiquetage avec Cordial
Ce traitement ne peut être intégré à un script perl, et doit donc être fait manuellement. De plus, le logiciel ne fonctionne que sous Windows et avec des fichiers encodés en iso-8859-1. a ces contraintes s'ajoutent le fait que les fichiers d'entrée ne doivent pas dépasse les 2Mo.
Une fois la tâche fastidiueuse effectuée pour nos sorties de flus RSS au format TXT, nous obtenons les sorties textes ayant cette forme :
Vous pouvez accéder aux sorties Cordial ici
Etiquetage avec Treetagger
Pour un étiquetage Treetagger, nous ajoutons au script de la BaO1, le traitement treetagger suivant :
Le programme est assez long a faire tourner. En sortie, nous obtenons des fichiers au format .xml. La représentation se présente sous cette forme :
Pour voir le script complet.
Vous pouvez télécharger nos sorties Treetagger ici.