• Présentation du projet
  • Ce site est réalisé dans le cadre du cours de "Programmation et Projet Encadré 2" du Master 1 PluriTAL.

    Le projet intitulé "Boîte à Outils" consiste à extraire les données textuelles issues du corpus de fils RSS (Really Simple Syndication) disponibles sur le site du journal Le Monde et recueillis tous les jours de l'année 2011 à 19 heures.

    Voici un aperçu de ces données brutes avant d'etre soumises à nos traitements. L'objectif est d'appliquer un filtrage automatique sur cet arbre de fils RSS via des scripts Perl qui parcourent l'arborescence des répertoires et des fichiers contenant ces fils RSS. Ces données se verront attribuer des étiquettes morpho-syntaxiques qu'il sera possible de visualiser sous forme de graphes. Par la complexité de ce traitement automatique, le travail à effectuer a été réparti en 4 étapes successives : BàO 1, BàO 2, BàO 3 et BàO 4.

  • Mise en oeuvre
  • Les différentes étapes nécessaires à la réalisation de notre projet sont retracées dans le schéma suivant : cliquez ici pour l'agrandir.



 

Charlene DENIS & Larisa NADEL