bg-shape
bg-shape

PROJET ENCADRE 2

Traitements et analyses linguistiques des flux rss du journal "Le Monde" pour l'année 2021

Bienvenue sur la page d'accueil du projet encadré du second semestre du master Plurital. Ce site regroupe les différents programmes et fichiers de sortie produits au cours des quatre boîtes à outils qui composent le projet.

Qui dit projet "encadré", dit encadrement. Remerciements chaleureux à Serge Fleury et Pierre Magistry pour leurs enseignements et leur bienveillance.

OBJECTIFS

bg-shape

Le projet exploite les flux rss du journal "Le Monde" générés durant la totalité de l'année 2021.

Un flux rss est constitué de fichiers XML contenant les dernières actualités consultables d'un site internet.

Dans ce projet, nous mettons en oeuvre une chaîne de traitement semi-automatique visant à extraire et à traiter les données linguistiques contenues dans ces flux RSS.

Plus particulièrement, nous nous intéressons aux titres et aux descriptions des articles publiés sur l'année écoulée. Il s'agira d'automatiser leur analyse.

Ces titres et ces descriptions sont classéws par rubriques. Nous prendrons comme exemples les rubriques "CULTURE", "EUROPE", "SOCIETE" et "CINEMA".

bg-shape

Langages utilisés

PLAN