Projet encadré

Projet encadré 2019/2020

Ce site documente la création de trois programmes permettant la création d'une "chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation". L'objectif de base était de créer quatre "boîtes à outils" sous forme de programmes perl (il était aussi possible d'écrire les programmes en python), qui permettaient de traiter un corpus constitué de fils RSS du journal Le Monde de l'année 2019. Cependant seules trois BAO seront présentées sur ce site, car étant donnée la situation mi-semestre, nous n'avons pas eu le temps d'aborder la mise en place de la BAO4 qui permettait la classification des textes de chaque fil RSS, le but étant qu'une rubrique exacte lui soit attribuée.

Le corpus de travail rassemblait donc 16 fils RSS du journal Le Monde pour l'année 2019. Le corpus est divisé en mois, puis jour et enfin heure (19H, heure de la récupération des fils). Les fils RSS sont sous forme de documents XML, et correspondent chacun à une rubrique particulière. Ils sont constitués du titre de l'article ainsi que de sa description et son contenu.

Voici une brève description des trois BAO:

  • BAO 1: extraction des contenus textuels de chacun des fils RSS en parcourant l'ensemble de l'arborescence (classement des textes en fonction des rubriques)
  • BAO 2: étiquetage des extractions dans le but d'effectuer une analyse syntaxique (utilisation treetagger et Talismane)
  • BAO 3:extractions des patrons morpho-syntaxiques à partir des données étiquetées