Présentation du projet

L'objectif de ce cours est de créer une chaîne de traitement séparée en plusieurs étapes, dans le but de pouvoir la réutiliser plus tard.
Ce projet a été mené à partir des fils RSS du journal Le Monde de l'année 2021. Un fils RRS est un fichier XML dont le contenu est produit automatiquement, en fonction des mises à jour faites sur un site web.
Ce projet consite à mettre en oeuvre une chaîne de traitement semi-automatique visant à extraire des données linguistiques de ces flux RSS.

Ce projet est constitué de quatre étapes :

1. On commence par extraire des fils RSS les titres et descriptions de chaque article correspondant à la rubrique souhaitée. J'ai mené le projet en utilisant les rubriques "Culture" (3246) et "Idées" (3232).
2. Une fois ces contenus extraits, on fait une annotation morpho-syntaxique, en utilisant TreeTagger et UDpipe.
3. On peut ensuite extraire des patrons morpho-syntaxiques et des relations de dépendances, afin de voir les spécificités linguistiques de chaque rubrique.
4. Enfin, on visualise les relations de dépendances extraites à l'aide d'un graphe.

BAO 1

Extraction du contenu textuel des fils RSS

BAO 2

Annotation morpho-syntaxique avec TreeTagger et UDpipe

BAO 3

Extraction de patrons morpho-syntaxiques et de relations de dépendance

BAO 4

Des textes aux graphes