Bienvenue
Ce site présente le développement des quatre "boîtes à outils" étudiées dans le cadre du cours
Programmation et projet encadré de Master 1 Plurital (2012-2013),
qui consistent à extraire, organiser et analyser le contenu des fils RSS du Monde sur l'ensemble de l'année 2012.
Le projet s'organise ainsi :
- Boîte à outils 1 - Extraction des contenus textuels
Il s'agit d'écrire un script perl permettant de filtrer et de nettoyer le contenu des fichiers XML afin d'obtenir deux types de sortie pour chaque rubrique de fil RSS : une en texte brut, et une en XML.
- Boîte à outils 2 - Etiquetage des données extraites
Le but de cette boîte est d'annoter les contenus textuels extraits grâce à la boîte n°1 avec des étiquettes morpho-syntaxiques à l'aide d'outils comme Cordial ou TreeTagger.
- Boîte à outils 3 - Extraction des patrons sur les différentes sorties
Dans cette boîte, nous allons faire de l'extraction de patrons syntaxiques en utilisant l'étiquetage effectué lors de la boîte à outils n°2.
- Boîte à outils 4 - Production des graphes
Dans cette dernière boîte à outils, nous allons produire, à partir des patrons syntaxiques extraits, des graphes permettant de mettre en valeur les relations entretenues par les différents éléments.
Au fil des différentes rubriques, nous présenterons nos différents scripts ainsi que nos résultats, tout en exposant les difficultés que nous avons pu rencontrer.
Bonne lecture!