Présentation du projet


Notre projet consiste à réaliser des traitements successifs sur un corpus de fils RSS. Nous allons vous présenter ces traitements à travers différentes "boîtes à outils" :





Corpus de travail

Nous allons travailler sur les fils RSS du journal "Le Monde" de l'année 2011. Il s'agit de 17 fils RSS qui ont été archivés une fois par jour (à 19h) sur plusieurs semaines. Chacun des fils est accompagné de sa version « textuelle » (dite profonde) au format Lexico3.

Le format « RSS » (« Really Simple Syndication ») permet de décrire de façon synthétique le contenu d'un site internet dans un fichier au format XML. Cela permet son exploitation par différents utilisateurs. Le fichier RSS est aussi appelé "flux RSS", "canal RSS" ou encore "fil RSS". Il est mis à jour régulièrement afin de toujours contenir les dernières informations à publier. Le standard RSS est pratique. Il permet de manière très simple d'être tenu informé des nouveaux contenus d'un site web sans devoir pour autant le consulter.

Concrètement, un fil RSS est un fichier XML. Il contient entre autre le titre de l'information, son résumé et un lien vers la page web qui la détaille. Les éléments qui nous intéressent dans ce projet sont le titre et le résumé de chacun des fils.

Voici la liste des fils RSS du journal Le Monde.

Et notre corpus de travail.

Perl

Pour effectuer les traitements des boîtes à outils sur le corpus de travail, nous avons écrit différents programmes. Pour cela, nous avons utilisé le langage de programmation Perl. Il s'agit d'un langage Open Source, semi-interprété et portable (nous l'avons utilisé sous Linux). Il a été créé par Larry Wall en 1987. Perl constitue un intermédiaire entre le langage C et les langages de scripts provenant de l'environnement UNIX comme le Shell, Awk ou Sed, ce qui le rend économique et compacte. De plus, un grand nombre de bibliothèques perl sont disponibles au téléchargement sur internet. Ce langage est une bonne solution pour les tâches de Traitement Automatique des Langues (TAL) car sa fonction première était de traiter des informations dans des fichiers textes. Perl nous sera donc utile pour la lecture et l'écriture à l'intérieur de fichiers textes, pour le traitement d'expressions régulières, la substitution de chaînes de caractères ou encore la création et l'utilisation de tables de hachage (dictionnaires).

Les Boîtes à Outils

Voici les traitements successifs effectués sur notre corpus de travail :

Boîte à outils n°1 : Extraire le texte

Nous avons créé deux programmes capables de parcourir une arborescence de fichiers et de s'arrêter sur les fichiers qui nous intéressent. Ces programmes extraient du texte. Le premier script le fait à l'aide d'une expression régulière. Le second utilise une bibliothèque particulière de Perl : XML::RSS. Le texte à extraire correspond à toutes les parties textuelles de tous les fils RSS du Monde contenus dans l'archive 2011 inclues dans les balises <title> </title> et <description> </description>. Nous nous intéresserons plus particulièrement à la rubrique "A la une".

Boîte à outils n°2 : Etiqueter le texte

Nous avons ensuite utilisé deux programmes afin d'étiqueter le texte extrait dans la BAO 1. Avec les sorties TXT nous avons utilisé le logiciel Cordial. Avec les sorties XML nous avons utilisé en ligne de commande (intégré au script de la BAO 1) le programme Treetagger. En sortie nous avons obtenu des fichiers étiquetés, que nous avons utilisé en BAO 3 pour extraire des patrons syntaxiques.

Boîte à outils n°3 : Extraire des patrons syntaxiques

Nous avons utilisé les fichiers étiquetés obtenus dans la BAO 2. Avec l'étiquetage produit par Cordial, nous avons utilisé un script de Serge Fleury, qui nous a permis d'obtenir des listes de mots correspondant à des patrons syntaxiques donnés. Par exemple pour le patron NOM ADJ nous avons obtenu des résultats comme "président sortant". Pour la sortie XML, nous avons utilisé des feuilles de styles pour afficher les mots correspondant aux patrons voulus.

Boîte à outils n°4 : Construire des graphes

Pour finir nous avons réalisé des graphes représentant certains motifs présents dans les patrons obtenus dans la BAO 3, avec le programme patron2graphe.

Retour à l'accueil   Haut de page   Première Boîte à outils