Elise LINCKER

Projet Boîtes à outils

Présentation du projet

Le projet "Boîte à outils" a été réalisé dans le cadre du cours "Projet Encadré 2", dispensé par M. Serge Fleury et M. Jean-Michel Daube, lors du second semestre du master 1 pluriTAL (année scolaire 2020/2021). L'objectif du projet est de mettre en oeuvre une chaîne de traitement textuel semi-automatique en quatre étapes sur un corpus de fils RSS du journal Le Monde. Ce site, entièrement réalisé pour ce projet, présente nos cheminements, codes, et résultats obtenus.

Un fil RSS, c'est quoi ?

S'abonner à un fil RSS permet d'être tenu informé des nouveaux contenus d'un site Internet, sans avoir à le consulter. Plus précisément, un fil ou flux RSS (Really Simple Syndication) est un flux de contenus provenant d'un site Internet : les dernières nouveautés ajoutées au site web sont détectées et mises à jour par le biais d'un fichier XML. L'application RSS s'appuie sur un langage XML défini par son propre vocabulaire (liste de balises) et sa propre grammaire (structuration des balises).

Description du corpus de travail

Notre corpus de travail rassemble l'ensemble des fils RSS du site internet du journal Le Monde recueillis tous les jours de l'année 2020 à 19 heures. Ce corpus est organisé dans un répertoire sous la forme suivante : année/mois/jour/heure/fils RSS.

organisation-des-fils-RSS-dans-le-repertoire

Pour chaque journée, 16 fils RSS sont récupérés. Ils correspondent à 16 rubriques différentes du journal Le Monde. On retrouve à chaque fois deux fichiers par rubrique : le fil RSS au format XML, ainsi que son équivalent au format TXT. Le nom du fichier contient l'identifiant de la rubrique du fil RSS extrait.

RUBRIQUE IDENTIFIANT
Une 3208
International 3210
Europe 3214
Société 3224
Idées 3232
Economie 3234
Actualité médias 3236
Sport 3242
Planète 3244
Culture 3246
Livres 3260
Cinéma 3476
Voyage 3546
Technologies 651865
Politique 823353
Sciences env_sciences

Pour ce projet, nous travaillerons à partir de la version structurée (XML). Grâce aux balises, nous pourrons extraire les données qui nous intéressent, à savoir les titres et les descriptions des articles. Voici un exemple d'un fil RSS de la rubrique "Planète" (3244). Chaque fil est strucuré de cette façon. On repère facilement les balises <title> et <description> :

exemple-de-fil-rss-rubrique-planète-12-janvier

Un projet en trois étapes

Nous avons élaboré trois "boîtes à outils", chacune correspond à une étape de notre chaîne de traitement :

Dans les travaux qui suivent, nous nous intéresserons aux quatre rubriques suivantes :