Présentation :

Ce projet a été réalisé dans le cadre du cours "Projet encadré 2" dispensé à paris 3 par M. Fleury et M. Daube, lors du second semestre du master 1 Traitement Automatique des Langues. Le projet devait initialement contenir une quatrième partie qui a dû être malheureusement annulée en 2020.

Projet : Boîte à Outils

Le but principal de ce projet est la mise en place d'une chaîne automatique de traitement textuel, qui consiste à l'extraction du texte de l'ensemble des fils RSS du journal Le Monde sur l'année 2019. L'essentiel de ce projet a été réalisé en cours avec nos professeurs.

Le projet se divise en trois grandes parties détaillées ci-dessous :

  • BàO1 : La création d'un script d'extraction des données textuelles d'un fil RSS depuis le format XML, le nettoyage et l'uniformisation de ces données.

  • BàO2 : L'étiquetage automatique de ces données grâce aux analyseurs morpho-syntaxiques TreeTagger et Talismane puis la conversion du résultat au format XML.

  • BàO3 : L'extraction de patrons morpho-syntaxiques par perl, par des requêtes XQuery ou bien par des feuilles de style XSLT.

  • BàO3bis : L'exploitation de ces patrons par la création de graphes.