Bienvenue !

Ce site vous présentera les résultats que nous avons obtenus suite à notre travail sur le projet Boite-à-Outils (BàO). Ce projet consiste aux traitements des flux RSS provenant du site www.lemonde.fr. Notre corpus est donc composé des derniers articles mis en ligne par le Monde pour l'année 2011.

Les Étapes

Boîte à Outils 1 - Traitement des flux RSS
Le script créé pour cette boîte à outils prend en entrée un répertoire contenant tous les flux RSS. Un flux RSS est à l'origine écrit selon le standard RSS, celui-ci s'appuyant sur le langage XML. Ce script permet de sélectionner les éléments voulus (titre et description) et créer en sortie un fichier XML et un fichier texte brut.

Boîte à Outils 2 - Annotation morpho-syntaxique
Le second script permet d'annoter morpho-syntaxiquement le fichier TXT en utilisant Treetagger. En sortie on obtient un fichier XML contenant les informations linguistiques. Pour le traitement via Cordial, il faut passer directement par le logiciel qui produit en sortie un fichier TXT comportant plusieurs colonnes.

Boîte à Outils 3 - Extraction de patron
Cette troisème étape consiste à extraire des patrons morpho-syntaxiques par le biais de plusieurs possibilités : l'utilisation d'un script perl à partir d'un fichier texte brut, l'utilisation d'expressions XPath à partir d'un fichier XML. Ce script se base sur les fichiers annotés issus de la BàO 2.

Boîte à Outils 4 - Création de Graphes
Lors de cette dernière étape nous créons des graphes à partir des fichiers de patrons que nous avons extrait à lors de la boîte à outils 3. Nous utilisons l'outil patron2graphe.exe avec les deux fichiers crées dans la BàO3.

Récapitulons :

Schema
Qu'est-ce que RSS ?

RSS (Really Simple Syndication) est un format XML qui permet la syndication de contenu web, c'est-à-dire le partage des données principales d'un site internet. D'autres sites peuvent ainsi partager ces données plus facilement. Les fichiers créés à partir de ce format sont appelés flux RSS, fils RSS ou RSS feed en anglais. Ils sont mis à jour automatiquement et contiennent des informations sur le site internet dont ils proviennent et des informations sur les derniers ajouts du site. Les flux RSS qui constituent notre corpus sont formés de la façon suivante :

<?xml version='1.0' encoding='UTF-8'?> next Déclaration de fichier XML
<rss [...] version="2.0"> next Déclaration du fichier RSS qui permet à l'utilisateur et à la machine d'identifier le type du fichier et sa version.
<channel>
Métadonnées sur le fil
<title> next Titre du fil </title>
<link> next URL de la page du fil </link>
<description> next Description rapide du fil </description>
<language> next Langage du fil</language>
<pubDate> next Date de publication du fil </pubDate>
Description de chaque article
<item> next Balise contenant le premier article
<title> next Titre de l'actualité </title>
<link> next URL de la page de l'actualité </link>
<description> next Description de l'actualité </description>
<pubDate> next Date de publication de l'actualité </pubDate>
...
</item> next Balise fermant le premier article

<item>...</item> next Deuxième article
<item>...</item> next Troisième article
...
<item>...</item> next Dernier article du fil
</channel>
</rss> next Fin du fil