menu menu2
1
2
3
4
5

Welcome!

Nous vous présentons notre projet qui a été réalisé dans le cadre du cours Projet Encadré (Master 1 TAL) pour ce site. Nous avons utilisé 4 "boîtes à outils" dont le but est l'extraction des informations utiles à partir des flux RSS du journal Le Monde de l'années 2014.

Dans notre "boîte à outils", il y a Perl, Python, XML, XSLT, Bash, TreeTagger, Cordial, Trameur, Pajek, XHTML, HTML, CSS... Nous remercions Serge Fleury, Jean-Michel Daube et Rachid Belmouhoub pour leur aide pendant ce semestre.

Mais RSS : qu'est-ce que c'est?

RSS (Really Simple Syndication) s'agit d'un fichier texte particulier dont le contenu est produit automatiquement (sauf cas exceptionnel) en fonction des mises à jour d'un site Web. Ce contenu est laissé au libre choix du producteur du flux, mais très généralement cela se compose de titres, de mises à jour (par exemple : "nouvelle promotion"), de liens hypertextes correspondants, et de descriptions, en quelques lignes, de ces mises à jour.

Le terme RSS désigne une convention de structuration de fichiers que nous venons de décrire, garantissant qu'ils puissent être diffusés dans un format compréhensible par le plus grand nombre. Ainsi, un webmaster peut décider, par un outil approprié, d'importer le contenu du "flux RSS" dans sa propre page Web, et plus largement n'importe qui peut, par une manipulation similaire, recevoir dans sa boite e-mail ou via un logiciel dédié les dernières mises à jour d'un site proposant la diffusion de son contenu "en RSS".

Le format RSS est un format de données basé sur XML qui est délimité par des balises, d'où la première ligne de l'exemple ci-dessous:

<?xml version="1.0" encoding="UTF-8"?> <rss version="2.0"> <channel> <title>Mon site</title> <description>Ceci est un exemple de flux RSS 2.0</description> <lastBuildDate>Sat, 23 May 2015 00:00:01 GMT</lastBuildDate> <link>http://www.example.org</link> <item> <title>Actualité N°1</title> <description>Ceci est ma première actualité</description> <pubDate>Sat, 23 May 2015 00:00:01 GMT</pubDate> <link>http://www.example.org/actu1</link> </item> <item> <title>Actualité N°2</title> <description>Ceci est ma seconde actualité</description> <pubDate>Sat, 07 Sep 2002 00:00:01 GMT</pubDate> <link>http://www.example.org/actu2</link> </item> </channel> </rss>


[ TOP ]

Notre corpus

Comme nous avons dit, notre corpus sont les flux RSS du journal Le Monde 2014. Nous avons téléchargé sur le site du cours, il est de 2.2 Go. Les fichiers sont disposés en une arborescence de dossiers classés en jours et en mois. Ils sont classés en rubriques, chacune contenant les titres et les descriptions des articles. Le premier pas de nos tâches est l'accès des fichiers par Perl, on peut visualier l'organisation arborescence de ces fichiers comme ci-dessous:


Arborescence

Les quatre étapes:

- BAO 1: L'extraction des informations (titre et description) dans les dossier et leurs répartitions en rubriques.

- BAO 2: L'étiquetage des informations d'extraction de BAO 1 par TreeTagger et Cordial.

- BAO 3: L'extraction de motifs à partir des sorties de la BAO 2.

- BAO 4: La représentation de ces motifs en graphe au près le filtrage.

[ TOP ]




Crée par Chang TAN et Si WU, Plurital 2015