Ce projet a été réalisé dans le cadre du cours "Projet encadré 2" lors du deuxième semestre du Master 1 en Traitement Automatique des Langues.
L'objectif est de mettre en place une chaîne de traitement de données textuelles d'un Flux RSS afin de créer des ressources linguistiques à travers différents programmes et outils.
Extraction du contenu textuel
Cette boîte à outils sert à extraire les contenues textuels des "titre" et "description" de chaque fichier d'un corpus de fils RSS du journal Le Monde de l'année 2021, à les concaténer pour ensuite les mettre dans un seul fichier correspondant à chaque rubrique.
Étiquetage du contenu textuel
Cette boîte sert à étiqueter automatiquement les contenus textuels extraits par BàO1 avec Treetagger et UDpipe pour de l’annotation en morpho-syntaxe et en dépendances.
Extraction de patrons
Cette boîte sert à extraire des patrons morphosyntaxiques dans les étiquetages produits avec udpipe et Treetagger.
Des textes aux graphes
L'objectif de dernière boîte de ce projet est de visualiser les données récupérées à partir d'un graphe.