Les Bras Cassés sont de retour !!!

Ce site présente les travaux que nous avons effectués au deuxième semestre du M1 Ingénierie linguistique à Paris 3 pour le cours de programmation et projet encadré. L'objectif de ce semestre était de s'initier au langage de programmation Perl à travers le traitement semi-automatique des fils RSS du journal Le Monde.

Les Boîtes à Outils

La chaîne de traitement que nous avons mis en place a pour fonction d'extraire à partir d'un vaste ensemble de fichiers XML toutes les données correspondant à un ou plusieurs patrons syntaxiques. Ces données pourront ensuite être soumises à une analyse textométrique. Pour cela, notre travail s'organise en plusieurs étapes (ou boîte à outils) dont voici chacune des caractéristiques.

Boîte à outils 1 : constitution du corpus

Cette première étape consiste à extraire, filtrer, nettoyer et réorganiser le contenu textuel des fichiers XML constituant les fils RSS du journal Le Monde pour l'année 2012. Pour constituer ce corpus, nous avons prévu deux scripts différents. Le premier repose uniquement sur les commandes de base du langage de programmation Perl. Le second script fait usage d'un module Perl spécifique au traitement des fichiers XML de type RSS. À chaque fois, deux formats de fichiers sont prévus en sortie : des fichiers textes et des fichiers XML.

Boîte à outils 2 : étiquetage des données

Une fois le corpus constitué, une deuxième étape vise à étiqueter son contenu textuel afin d'obtenir pour chaque token sa forme, son lemme et sa catégorie grammaticale. Deux outils d'étiquetage différents ont été utilisés pour cette étape : Cordial® et Treetagger. On a utilisé Cordial® pour étiqueter les fichiers au format texte et Treetagger les fichiers au format XML.

Boîte à outils 3 : extraction des patrons syntaxiques

À partir des fichiers étiquetés, une troisième étape consiste à en extraire des patrons syntaxiques. Le choix de ces patrons peut être déterminé par l'utilisateur. Pour illustrer notre travail, nous prendrons l'exemple des patrons Nom Prep Nom et Nom Adj.

Là encore plusieurs méthodes d'extraction ont été mises en oeuvre :

via l'usage d'expressions régulières sur les fichiers de sorties de Cordial
au moyen de requêtes XPath et d'une feuille de style XSLT appliquée aux fichiers de sortie de Treetagger.

Boîte à outils 4 : mise en forme des résultats pour l'analyse textométrique

La dernière étape de notre projet à pour but de présenter les résultats obtenus après l'extraction des patrons syntaxiques. Cette présentation est faite à partir de graphes visant à faciliter l'analyse des données textuelles contenues dans les fils RSS de départ. Pour cela, nous avons utilisé deux programmes différents : le Trameur et patron2graph.

Organisation du site

La présentation de chacune de ces étapes est accessible via le menu principal. Les scripts et les fichiers de sorties obtenus au fur et à mesure sont téléchargeables depuis notre site. À chaque fois, nous avons cherché à mettre en avant les différences obtenues entre chacune des différentes méthodes mises en oeuvres ainsi que les difficultés que nous avons rencontrés et les pistes qui permetterait d'améliorer nos résultats.