Présentation

Ce site a été réalisé dans le cadre du cours de Programmation et Projet encadré 2 du Master 1 Ingénierie Linguistique (INALCO, Parix III, Parix X).
Le projet s'articule en plusieurs étapes dites "Boîtes à outils" dont la finalité est la suivante :

Objectif

A partir des flux RSS du journal Le Monde de l'année 2013, il s'agit de construire une chaîne de traitements destinée à identifier des motifs (ou patrons) syntaxiques, par exemple la suite "Nom Adjectif" (ex : "élections législatives"). Ces motifs seront présentés sous forme de graphes, obtenus après 4 étapes de traitement :

- La BAO1 consistera dans un premier temps à parcourir cette arborescence pour repérer les différentes rubriques, puis à extraire les titres et les descriptions contenus dans chaque fichier xml (les fichiers .txt ne seront pas traités), que l'on stockera dans deux formats : un fichier xml et un texte brut (par rubrique).

- La BAO2 intègrera une phase d'étiquetage morphosyntaxique des données extraites en utilisant deux annotateurs (TreeTagger et Cordial).

- La BAO3 extraira les patrons syntaxiques souhaités en utilisant plusieurs méthodes selon le type de sorties : plusieurs programmes Perl possibles pour les sorties de Cordial, et via des requêtes XPATH ou du XSLT pour les sorties TreeTagger.

- Enfin, la BAO4 permettra l'affichage de ces patrons en graphes à l'aide du logiciel patron2graphe.

Schéma représentatif

Corpus

Comme cité précédemment, nos données d'entrée sont les flux RSS du journal Le Monde 2013, téléchargeable sur le site du cours. Les fichiers sont disposés en une arborescence de dossiers classés en jours et en mois. Ils sont organisés en rubriques, chacune contenant les titres et les descriptions des articles.

Il est nécessaire d'observer la structure des fichiers XML avant de pouvoir commencer à en extraire les informations :

Exemple de structure des fichiers XML

<?xml version='1.0' encoding='UTF-8'?> <?xml-stylesheet type='text/xsl' href='http://rss.lemonde.fr/xsl/fr/rss.xsl'?> <rss version="..."> <channel> <title>Le Monde.fr : à la Une</title> <link>http://www.lemonde.fr</link> <description>Toute l'actualité au moment de la connexion</description> ... <!-- informations sur la date, le copyright, la langue...--> ... <item> <title>[Titre de l’item 1]</title> <link>[URL de l’item 1]</link> <description>[Description de l'item 1]</description> </item> <item> <title>[Titre de l’item 2]</title> <link>[URL de l’item 2]</link> <description>[Description de l'item 2]</description> </item> ... </channel> </rss>

Après s'être familiarisé avec la structure des fichiers xml, il est temps de passer au code !