Traitement des flux RSS Projet Encadré

vue globale du projet

Vue globale des tâches à réaliser pour le projet 4 boîtes à outils

Dans le cadre du projet encadré, nous devons réaliser 4 boîtes à outils qui traitent les contenus textuels (titres et descriptions) qui proviennent des flux RSS de l'année 2021. Grâce à ces 4 boîtes à outils, nous pouvons extraire, normaliser, étiqueter, segmenter, annoter et structurer les textes classés par rubriques, enfin comparer les résultats de différentes rubriques.

Le but de ce projet est de pouvoir maîtriser les méthodes informatiques en utilisant principalement les langages perl et python, pour réaliser les 4 boîtes à outils. De plus, les connaissances aqcuises sur XML en cours de Document structuré peuvent être aussi appliquées dans le cadre de ce cours.

Les scripts dans les boîtes à outils permettront de travailler sur les contenus des 3 rubriques suivantes : 3210 (international), 3244 (planète), 3246 (culture).