Boîte à Outils

- Projet du cours Programmation et Projet Encadré 2

Ce site est le support du projet BAO effectué dans le cours "Programmation & Projet Encadré 2" dans le cadre du master Plurital. Il s'agit de mettre en oeuvre une chaîne de traitement textuel automatique, depuis la récupération des données jusqu'à leur présentation. Notre corpus de travail est constitué de fils RSS du journal Le Monde de l'année 2019 au format xml. Les différentes rubriques sont à la une, international, culture etc. et ont chacune un identifiant, ce qui permet d'identifier aisément les différents fichiers de flux RSS.

Découvrez ci-dessous les grandes étapes du traitement sous forme de boite à outils.

Boîte à outils 1 : extraction de contenu textuel. Le but est d'arriver à parcourir l'arborescence pour extraire les données textuelles qui nous intéressent.

Boîte à outils 2 : étiquetage. Une fois les données textuelles obtenues, il faut les étiquetter (forme, POS, lemme) pour pouvoir les traiter de manière syntaxique.

Boîte à outils 3 : extraction de patrons syntaxiques. Grâce à l'étiquetage réalisé à l'étape précédente, on va pouvoir extraire des schémas pertinents pour trouver la terminologie spécifique à une rubrique.

Boîte à outils 3bis : représentation graphique. La dernière étape consiste à représenter de manière plus visuelle les résultats obtenus grâce à la BàO3.

img04

BàO1

Extraction de contenu

View more
img04

BàO2

Étiquetage

View more
img04

BàO

Extraction de patron

View more
img04

BàO3.b

Représentation graphique

View more