Ce site vous présentera les résultats que nous avons obtenus suite à notre travail sur le projet Boite-à-Outils (BàO). Ce projet consiste aux traitements des flux RSS provenant du site www.lemonde.fr. Notre corpus est donc composé des derniers articles mis en ligne par le Monde pour l'année 2011.
Boîte à Outils 1 - Traitement des flux RSS
Le script créé pour cette boîte à outils prend en entrée un répertoire contenant tous les flux RSS. Un flux RSS est à l'origine écrit selon le standard RSS, celui-ci s'appuyant sur le langage XML. Ce script permet de sélectionner les éléments voulus (titre et description) et créer en sortie un fichier XML et un fichier texte brut.
Boîte à Outils 2 - Annotation morpho-syntaxique
Le second script permet d'annoter morpho-syntaxiquement le fichier TXT en utilisant Treetagger. En sortie on obtient un fichier XML contenant les informations linguistiques. Pour le traitement via Cordial, il faut passer directement par le logiciel qui produit en sortie un fichier TXT comportant plusieurs colonnes.
Boîte à Outils 3 - Extraction de patron
Cette troisème étape consiste à extraire des patrons morpho-syntaxiques par le biais de plusieurs possibilités : l'utilisation d'un script perl à partir d'un fichier texte brut, l'utilisation d'expressions XPath à partir d'un fichier XML. Ce script se base sur les fichiers annotés issus de la BàO 2.
Boîte à Outils 4 - Création de Graphes
Lors de cette dernière étape nous créons des graphes à partir des fichiers de patrons que nous avons extrait à lors de la boîte à outils 3. Nous utilisons l'outil patron2graphe.exe avec les deux fichiers crées dans la BàO3.
RSS (Really Simple Syndication) est un format XML qui permet la syndication de contenu web, c'est-à-dire le partage des données principales d'un site internet. D'autres sites peuvent ainsi partager ces données plus facilement. Les fichiers créés à partir de ce format sont appelés flux RSS, fils RSS ou RSS feed en anglais. Ils sont mis à jour automatiquement et contiennent des informations sur le site internet dont ils proviennent et des informations sur les derniers ajouts du site. Les flux RSS qui constituent notre corpus sont formés de la façon suivante :
<?xml version='1.0' encoding='UTF-8'?> Déclaration de fichier XML
<rss [...] version="2.0"> Déclaration du fichier RSS qui permet à l'utilisateur et à la machine d'identifier le type du fichier et sa version.
<channel>
Métadonnées sur le fil
<title> Titre du fil </title>
<link> URL de la page du fil </link>
<description> Description rapide du fil </description>
<language> Langage du fil</language>
<pubDate> Date de publication du fil </pubDate>
Description de chaque article
<item> Balise contenant le premier article
<title> Titre de l'actualité </title>
<link> URL de la page de l'actualité </link>
<description> Description de l'actualité </description>
<pubDate> Date de publication de l'actualité </pubDate>
...
</item> Balise fermant le premier article
<item>...</item> Deuxième article
<item>...</item> Troisième article
...
<item>...</item> Dernier article du fil
</channel>
</rss> Fin du fil