Boîte à outils 1

Extraction du contenu textuel

Objectif

L'objectif de la BàO1 est de parcourir toute l'arborescence et extraire les contenus textuels de tous les fils RSS : Le contenu des balises est Title et Description. Pour la mise en œuvre de cette boîte, deux méthodes ont été réalisées: la première utilisera un script Perl avec des expressions régulières; la seconde utilisera un script Perl avec la bibliothèque XML::RSS

Version 1 : Les expressions régulières

Version 2 : La bibliothèque XML::RSS

Résultats

Les résultats obtenus par ces deux programmes sont idendiques et satisfaisants.

Les sorties TXT et XML sont les suivantes:

RUBRIQUE METHODE REGEXP METHODE XML::RSS
Sortie TXT Sortie XML Sortie TXT Sortie XML
Cinéma - 3476
Culture - 3246
Voyage - 3246