BOITE A OUTILS 2 : Etiquetage

Obejctifs

Dans cette boîte à outils, l'objectif est de produire un étiquetage des données textuelles des fils RSS produits dans la boite à outils 1. Pour ce faire, nous utilisons 2 outils différents:

Etiquetage avec Cordial

Ce traitement ne peut être intégré à un script perl, et doit donc être fait manuellement. De plus, le logiciel ne fonctionne que sous Windows et avec des fichiers encodés en iso-8859-1. a ces contraintes s'ajoutent le fait que les fichiers d'entrée ne doivent pas dépasse les 2Mo.

Une fois la tâche fastidiueuse effectuée pour nos sorties de flus RSS au format TXT, nous obtenons les sorties textes ayant cette forme :

Vous pouvez accéder aux sorties Cordial ici

Etiquetage avec Treetagger

Pour un étiquetage Treetagger, nous ajoutons au script de la BaO1, le traitement treetagger suivant :

Le programme est assez long a faire tourner. En sortie, nous obtenons des fichiers au format .xml. La représentation se présente sous cette forme :

Pour voir le script complet.

Vous pouvez télécharger nos sorties Treetagger ici.

Image bannière © Copyright Off Beat Mum · Design : MD DR & AG