Traitement de fils RSS pour leur analysis linguistique

Ce projet a été réalisé dans le cadre du cours "Projet encadré 2" lors du deuxième semestre du Master 1 en Traitement Automatique des Langues.

L'objectif est de mettre en place une chaîne de traitement de données textuelles d'un Flux RSS afin de créer des ressources linguistiques à travers différents programmes et outils.

Boite à outil 1

Extraction du contenu textuel

Cette boîte à outils sert à extraire les contenues textuels des "titre" et "description" de chaque fichier d'un corpus de fils RSS du journal Le Monde de l'année 2021, à les concaténer pour ensuite les mettre dans un seul fichier correspondant à chaque rubrique.

Boite à outil 2

Étiquetage du contenu textuel

Cette boîte sert à étiqueter automatiquement les contenus textuels extraits par BàO1 avec Treetagger et UDpipe pour de l’annotation en morpho-syntaxe et en dépendances.

Boite à outil 3

Extraction de patrons

Cette boîte sert à extraire des patrons morphosyntaxiques dans les étiquetages produits avec udpipe et Treetagger.

Boite à outil 4

Des textes aux graphes

L'objectif de dernière boîte de ce projet est de visualiser les données récupérées à partir d'un graphe.