BAO 1

BAO 1 est la première étape de notre projet. L'objectif de cette partie est de créer un script perl capable de parcourir l'arborescence des fichiers XML récupérés du flux RSS du site de la presse de l'année 2014. On doit ensuite extraire le contenu des rubriques qui nous intéressent. Elle consiste à extraire de manière "brut" le contenu textuel de l'ensemble des rubriques de notre corpus qui figure dans les balises "title"et "description" dans les fils RSS.

Elle peut se faire à partir de deux façons:

Avec les expressions régulières
Avec la bibliothèque Perl XML::RSS

Corpus

Notre corpus est constitué de fils RSS du journal "Le Monde". Nous avons démarré notre projet avec le fichier 2008 constitué de fils RSS des journaux de 15 jours car le fichier 2014 étant lourd prenait un temps considérable pour tester les traitements.