Le corpus de fils RSS rassemble les titres des articles du journal, leurs descriptions et des liens pour les consulter.
Le but de la boîte à outils 1 est avant tout de parcourir les données du corpus, puis de produire un fichier texte dans lequel on extrait les contenus textuels des titres et des descriptions.
Les scripts développés dans le cours utilisent deux techniques différentes d'extraction du texte : les expressions régulières de Perl et la bibliothèque XML::RSS.
Les scripts et les résulats sont disponibles ici :
Script XML:RSS
Script PERL
Sorties Planète :
Sortie Texte
Sortie XML
Sorties Culture :
Sortie Texte
Sortie XML