La BAO 2 est la mise en oeuvre de l'étiquettage des titres et résumés récupérés dans la BAO 1.


Première solution : étiquettage via Cordial


Cordial est, entre autre, un outil d'étiquettage morpho-syntaxique de textes. Cependant il ne traite qu'un seul texte à la fois, il faut donc les lui soumettre tours à tours

Le problème rencontré a été le suivant : Cordial ne prend en entrée que des fichiers encodés en iso-8859-1. Il a donc fallu convertir tous les fichiers texte obtenus en fin de BAO 1 en iso-8859-1.

En sortie, nous obtenons des fichier CNR, un par rubrique, contenant les titres et résumés étiquettés. Le processus est certe manuel et répétitif, mais le résultat est assez convaincant.


Voici un aperçu du résultat obtenu avec Cordial :


Cependant comme vous pouvez l'observer, Cordial n'a pas reconnu les mots différents contenus dans "chilienneDans"


Cliquez ici pour télécharger les résultats de l'étiquettage par Cordial


Deuxième solution : étiquettage via Treetagger


Ici, nous allons utiliser Treetagger en ajoutant une fonction dans le script BAO1, permettant de tokeniser le texte puis de l'étiquetter. Tout comme pour Cordial, nous voulons obtenir en résultat le mots, son lemme et son étiquette grammaticale. En revanche, le résultat sera au format XML, grâce au programme treetagger2xml-utf8.pl


Le programme avec Treetagger se trouve ici : BAO 2

Notre programme semble seulement ne pas vouloir fonctionner en raison d'un erreur apparemment située dans le programme treetagger2xml-utf8.pl (bien que la raison doive se situer ailleurs : ce script fonctionne parfaitement sur d'autres programmes BAO). N'ayant donc pu produire les sorties étiquettées 2008, ni les récupérer, nous avons demandé à nos collègues de nous envoyer leurs sorties obtenues sur le corpus 2012

Cette solution automatisée, permettant de créer les sortie étiquetées directement à la suite du traitement des fils RSS, est certe moins pénible que le passage à la main chaque fichier dans Cordial. Mais le traitement par Treetagger est extrêmement long, et même moins précis.


Voici un aperçu du résultat obtenu avec Treetagger :


Cliquez ici pour télécharger les résultats de l'étiquettage par Treetagger