B A O

Projet Encadré 2 - 2018
Alice Missud, Clara Ponchard

DONNÉES

Les fichiers traités

Les données utilisées pour ce travail sont issues des fils RSS du journal Le Monde. Celles-ci sont constitués de tous les flux RSS mis en ligne par le journal afin de signaler aux lecteurs les mises à jour des articles sur leur plateforme de publication en ligne. Un flux RSS est notamment représenté par un fichier XML dont le contenu est produit automatiquement (sauf cas exceptionnels) en fonction des mises à jour d’un site Web. Les fils RSS ont été récupérés avec le programme « Cron » qui permet de paramétrer le lancement d’un programme à heure fixe. Un dossier contenant les fils d'une année constitue une arborescence organisée de la façon suivante :



Nous nous sommes servies du dossier répertoriant tous les fils RSS de l'année 2017. Plus particulièrement, nous avons traité l'ensemble des fichiers XML de l'arborescence répertoriant des rubriques particulières, à savoir les rubriques 3208 (A La Une), 3210 (International) et 3214 (Europe). Les fichiers listés ci-dessus qui contiennent ces rubriques portent le nom de celles-ci dans leur alias, par exemple : 0,2-3208,1-0,0.xml, contient la rubrique "A La Une". Le contenu textuel pertinent pour ce projet est compris entre les balises <title> </title> et <description> </description> de la balise <item>.

Les fils RSS du Monde pour l'année en cours sont accessibles ici !