Accueil BAO1 BAO2 BAO3 BAO4

Boite à Outils 1

Le corpus de fils RSS rassemble les titres des articles du journal, leurs descriptions et des liens pour les consulter.
Le but de la boîte à outils 1 est avant tout de parcourir les données du corpus, puis de produire un fichier texte dans lequel on extrait les contenus textuels des titres et des descriptions.
Les scripts développés dans le cours utilisent deux techniques différentes d'extraction du texte : les expressions régulières de Perl et la bibliothèque XML::RSS.
Les scripts et les résulats sont disponibles ici :

Script XML:RSS
Script PERL

Sorties Planète :

Sortie Texte
Sortie XML

Sorties Culture :

Sortie Texte
Sortie XML