Le Projet

Description du projet

L'objectif de ce projet est de "[mettre] en œuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation". Plus précisément, le but sera de pouvoir extraire des terminologies de notre corpus et de contraster différentes rubriques.

Notre corpus de travail est une arborescence de fils RSS du journal Le Monde, recueillis tous les jours de l'année 2017 à 19h. L'arborescence contient un répertoire pour chaque mois de l'année, dans lesquels se trouvent autant de dossiers que de jours. Au sein de ces répertoires de jour, on trouve les fichiers qui nous intéressent : les flux RSS de chaque rubrique, au format .xml. Les différentes rubriques sont celles du Monde (à la une, international, culture etc.) et ont chacune un identifiant, ce qui permet d'identifier aisément les différents fichiers de flux RSS.

Pour arriver à obtenir les terminologies de différentes rubriques (on n'en choisira que trois) puis à contraster les rubriques entre elles, plusieurs étapes sont nécessaires. Chaque étape est associée à une "boîte à outils" :

N.B.: Pour la plupart de ces étapes, plusieurs outils, plusieurs méthodes ont été utilisées. Elles seront détaillées dans les onglets du site qui y sont consacrés.

Les rubriques choisies sont : "A la une" (identifiant 3208), "International" (identifiant 3210) et "Culture"(identifiant 3246). Les deux premières ont été sélectionnées car ce sont celles pour lesquelles il y a la plus grande quantité de données (les contenus étiquetés par TreeTagger, au format .xml, pèsent respectivement environ 35,5Mo pour "A la une" et 31Mo pour "International"). La troisième rubrique pour laquelle le fichier TreeTagger était le plus lourd (environ 26,3Mo), soit la rubrique "Entreprises", n'a pas été choisie. Idem pour la suivante (environ 26Mo), correspondant à la rubrique "France". J'ai préféré prendre à la place la rubrique "Culture" (fichier TreeTagger d'environ 21,7Mo) car elle me semble assez différente des deux autres rubriques choisies, j'espère donc pouvoir observer une réelle différence au niveau de la terminologie (je suppose en effet que les évènements économiques ou relatifs aux entreprises ainsi que les évènements touchant la France ont plus de chance de se trouver à la une du journal que les informations culturelles).

Vous trouverez ici un tableau récapitulatif des correspondances entre identifiant et rubrique (image issue du cours).