Boîte à Outils

Traitement de fils RSS pour leur analysis linguistique

On vous présente différents outils développés pour le traitement automatique et linguistique des Fils RSS. Ce travail a été encadré par les professeurs Jean-Michel Daube et Serge Fleury, dans le cadre de la matière Projet encadré et Programmation 2 du Master 1 pluriTAL. Plusieurs ressources ont été apprises et appliquées dans une autre matière, Document Structuré, aussi dictée par ce dernier professeur.

Objectifs et ressources

À travers différents programmes et outils, on a mis en place une chaîne de traitement de données textuelles afin de créer des ressources linguistiques. Dans un premier temps, on a préparé et segmenté le corpus de Fils RSS (RDF Site Summary) du journal Le Monde pour l'étiqueter morphologiquement et syntaxiquement via TreeTagger et UDpipe.

Enfin, à travers l'application de différents programmes, langages et ressources, on a extrait depuis ce corpus annoté des patrons morphosyntaxiques et des relations syntaxiques en dépendances, en accédant ainsi à d’importantes informations pour comprendre notre corpus.

Un des objectifs principaux de ce projet est la mise en œuvre de différentes méthodes afin de les comparer. C'est pour cela que l’on a répété la réalisation de certaines tâches de plusieurs façons différentes. Tout au long de ce projet, vous trouverez des programmes en Perl et en Python, souvent utilisés à partir de différentes méthodes et bibliothèques, ainsi que des requêtes de XQuery, des expressions XPath et des feuilles de styles XSLT. Notamment, il sera question du travail effectué sur des fichiers XML qui a été une partie importante de ce projet.

Corpus

Notre corpus initial est composé de Fils RSS de l'année 2020, récoltés tous les jours à 19h. Bien que les programmes soient applicables à la totalité du corpus, le travail a été uniquement effectué sur les rubriques "À la une", "Idées", "Livres" et "Cinéma".


logo-plurital