Présentation

L'objectif de ce projet était de mettre en oeuvre "une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation". En clair, il était question de créer au fil du semestre quatre "boîtes à outils" nous permettant de traiter un corpus de fils RSS du journal Le Monde de l'année 2018 et d'en obtenir des extractions terminologiques pour différentes rubriques du journal à analyser. De plus, ce projet a été l'occasion de découvrir un nouveau langage de programmation : Perl.

Le corpus de travail est donc un corpus (volumineux!) constitué de 17 fils RSS du journal pour l'année 2018. Le corpus est organisé de la manière suivante : par mois, puis par jour, et enfin l'heure de récupération des fils (19h car il s'agit d'une récupération automatique). Les différents fils RSS sont alors disponibles pour le jour dont il est question. Le corpus a donc une arborescence particulière qu'il a fallu maîtriser avant de commencer le projet.

Chaque fil RSS (qui est un fichier XML) correspond à une rubrique du journal en particulier et contient les articles (leur titre et leur description) de la journée.

Voici l'organisation du projet global et les objectif des différentes boîtes à outils :

  • BAO 1 : extraction des contenus textuels (contenus des balises title et description) des fils RSS en parcourant l'arborescence du corpus
  • BAO 2 : étiquetage de ces extractions obtenues pour pouvoir les analyser syntaxiquement
  • BAO 3 : extraction de patrons syntaxiques pour obtenir une terminologie spécifique à chaque rubrique traitée
  • BAO 4 : analyse des extractions terminologiques à l'aide de graphes

Pour mener ce projet, nous avons choisi trois rubriques qui nous intéressaient afin d'appliquer les différentes boîtes à outils sur celles-ci :

  • Rubrique 3210 : International
  • Rubrique 3236 : Médias
  • Rubrique 3244 : Planète
Nous avons choisi ces rubriques afin d'obtenir des terminologies différentes selon les sujets et de pouvoir ainsi obtenir des analyses différentes, jugeant les rubriques suffisamment différentes dans les sujets abordées.