Boîte à outils 1
"La boite à outils 1" a pour but d'extraire le titre et le résumé de chaque rubrique du fils rss. Ceci est réalisé à travers un script en perl qui consiste à faire un filtrage et une extraction du contenu qui se trouve entre les balises <title> </title> et <resume> </resume>. La détection de la date ainsi qu'un remplacement des entités HTML et de caractères spéciaux ont été effectué. En sortie, nous obtenons pour chaque rubrique deux fichiers: un en .txt et l'autre en .xml contenant l'extraction demandée.
Nous avons choisis deux méthodes d'extractions: la première est l'utilsation des expressions régulières, la seconde est via une bibliothèque XML::RSS
Avec expression régulière:
Voici le script commenté:
Pour télécharger le script, cliquez ici
Pour télécharger les résultats obtenus, cliquer ici
Avec XML::RSS:
Voici le script commenté:
Pour télécharger le script, cliquez ici
Pour télécharger les résultats obtenus, cliquer ici