Présentation

RSS Monde

Au cours du deuxième semestre du Master 1 TAL, dans le cadre du cours "Programmation et Projet Encadré", nous avons développé d'une chaîne de traitement des actualités du journal "Le Monde" extraites provenant des flux RSS:

Ce projet s'est fait en quatre étapes principales :

- Boîte à outils n°1- Extraction du texte : parcours de l'arborescence du dossier des flux 2021 capitalisés + extraction du contenu textuel (titre & description) de tous les fils d'actualité pour une rubrique donnée

- Boîte à outils n°2- Etiquetage du texte : annotations automatiques morpho-syntaxiques & en dépendances, avec Treetagger et UDpipe

- Boîte à outils n°3- Extraction de patrons : extraire les termes correspondants à un patron morphosyntaxique (ex : NOM ADJ) sur les données étiquetées et d'extraire les relations de dépendances

- Boîte à outils n°4- Des textes aux graphes : visualisation du contenu textuel

Retour en haut