Le projet

BàO 1 : traitement des flux RSS

Nous allons traiter les flux RSS à l’aide d’un script perl. Nous prenons comme entrée un répertoire qui contient tous les flux RSS. Le script utilisé pour cette étape permet de séléctionner les éléments voulus puis de créer deux sorties -> un fichier XML et un fichier TXT. On distinguera ici pour chaque article, le titre et sa description. On veillera aussi à ne pas mémoriser plus d'une fois le même article puis on nettoiera les données.

BàO 2 : étiquetage morpho-syntaxique

Nous allons procéder à une annotation des fichiers de deux manières : avec Tree tagger et avec Cordial. Le script utilisé permet d'annoter morpho-syntaxiquement le fichier TXT. En sortie on obtiendra un fichier XML contenant les informations linguistiques. Pour le traitement via Cordial, il faudra passer directement par le logiciel qui produit en sortie un fichier TXT comportant plusieurs colonnes.

BàO 3 : extraction de patrons

Nous allons écrire un script qui permet d'extraire des patrons morpho-syntaxiques à partir des fichiers étiquetés par la Boite à Outils 2. Nous utiliserons plusieurs méthodes : avec un fichier patron en entrée / sans fichier patron, avec XQuery et enfin avec XSLT.

BàO 4 : création de graphe

Nous allons créer des graphes via le Terminal en utilisant les fichiers de patrons extraits précédemment et un programme spécial. Nous choisirons nos motifs en fonction des thèmes des rubriques.