Accueil



Présentation:




























Ce site a été réalisé dans le cadre du cours Programmation et Projet Encadré du Master 1 Ingénierie Linguistique de Paris III, Paris X et INaLCO. Vous trouverez les travaux que j'ai réalisé grâce à différents scripts et programmes ainsi que leurs résultats.

Objectif du cours

L'objectif du cours était, à partir de fils RSS de l'année 2013 provenant du site d'information du journal Le Monde, de créer un programme Perl capable de récupérer leurs contenus, les étiqueter et enfin extraire des patrons morpho-syntaxiques pour réaliserr des graphes.

Nous avons un corpus énorme et constitué d'une arborescence de fichiers (plusieurs sous-répertoires). Les fils RSS ont été recueillis tous les jours de l'année 2013 à 19h par Serge Fleurymon enseignant. Tous les fisl RSS sont constitués du titre de l'article, une description/résumé de celui-ci et l'article intégral. Le journal du Monde est découpé en rubriques. Pour chaque rubrique, il existe un fil RSS. Nous avons travaillé sur le titre et le résumé des articles.

  • RSS : Un fichier XML qui respecte une grammaire particulière. Ce fichier contient une entête XML et une balise RSS qui est la racine précisant la version utilisée.
    • Eléments du fichier RSS :
      1. La balise "channel" qui est une description assez générale du fil RSS.
      2. Une liste d'items qui correspond à la liste des informations associées aux mises à jour sur chaque élément. Chaque item possède un titre, un lien et une description.