Boîte à outils 1
Extraction du contenu textuel
Objectif
L'objectif de la BàO1 est de parcourir toute l'arborescence et extraire les contenus textuels de tous les fils RSS : Le contenu des balises est Title et Description. Pour la mise en œuvre de cette boîte, deux méthodes ont été réalisées: la première utilisera un script Perl avec des expressions régulières; la seconde utilisera un script Perl avec la bibliothèque XML::RSS
Version 1 : Les expressions régulières
Version 2 : La bibliothèque XML::RSS
Résultats
Les résultats obtenus par ces deux programmes sont idendiques et satisfaisants.
Les sorties TXT et XML sont les suivantes:
RUBRIQUE | METHODE REGEXP | METHODE XML::RSS | ||
---|---|---|---|---|
Sortie TXT | Sortie XML | Sortie TXT | Sortie XML | |
Cinéma - 3476 | ||||
Culture - 3246 | ||||
Voyage - 3246 |