Outil 1:
extraction de contenu
Récupération des titres et descritptions de chaque article de façon organisée.
Ce site est le support du projet BAO effectué dans le cours "Programmation & Projet Encadré 2" dans le cadre du master Plurital. Il s'agit de mettre en oeuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Notre corpus de travail est constitué des fils RSS du journal Le Monde de l'année 2018. Découvrez ci-dessous les grandes étapes du traitement sous forme de boite à outils.
Récupération des titres et descritptions de chaque article de façon organisée.
Annotation morphosyntaxique des titres et descriptions.
Extraction de patrons morphosyntaxiques à partir des textes étiquetés.
Présentation des patrons sous forme de graphe de mots.