BAO 2





BAO 2 a le principal but de faire un étiquetage morpho-syntaxique des mots du fichier txt que nous avons obtenu dans BAO1. Nous continuons à travailler avec les expressions régulières pour cette partie. Nous allons donc, tout d'abord, extraire du dossier 2014 toutes les descriptions et les titres (les parties des fichiers qui nous intéressent) de chaque rubrique au format xml et txt. Ensuite, pour l'étiquetage MORPHOSYNTAXIQUE, on utilise deux méthodes différentes:

  1. Etiquetage avec Treetagger: qui est un programme qui fera l’étiquetage des contenus textuelles des fichiers XML obtenus. Il s'agit d'un programme gratuit qui fonctionne en ligne de commande et dont nous obtenons à la fois une sortie xml et une en txt pour chaque rubrique:
  2. Etiquetage avec Cordial: Cordial qui est un logiciel payant et disponible uniquement sous Windows. Il va traiter étiquetter chaque fichier txt que nous obtenons de chaque rubrique en format cnr . Notons qu'il faut un fichier entrée en "iso-8859-1" pour pouvoir travailler avec Cordial. Une méthode serait de modifier l'encodage de chaque fichier txt en sortie obtenu par chaque rubrique avec WORD.

BAO 2 consiste donc, en quelques mots, à modifier le script de BAO 1 en récupérant tous les titres et descriptions de chaque rubrique et en appliquant la ligne de commande de treetagger pour obtenir les étiquettes morphosyntaxiques. On obtiendra du script une sortie dont le contenu est sous la forme "forme, lemme, catégorie" . Et pour Cordial, on appliquera chaque sortie txt en Iso dans le logiciel.

Corpus
    Notre corpus est constitué de fils RSS du journal "Le Monde". Nous avons démarré notre projet avec le fichier 2008 constitué de fils RSS des journaux de 15 jours car le fichier 2014 étant lourd prenait un temps considérable pour tester les traitements.


BLOG BAO 1 et 2