Boîte à outils 1


"La boite à outils 1" a pour but d'extraire le titre et le résumé de chaque rubrique du fils rss. Ceci est réalisé à travers un script en perl qui consiste à faire un filtrage et une extraction du contenu qui se trouve entre les balises <title> </title> et <resume> </resume>. La détection de la date ainsi qu'un remplacement des entités HTML et de caractères spéciaux ont été effectué. En sortie, nous obtenons pour chaque rubrique deux fichiers: un en .txt et l'autre en .xml contenant l'extraction demandée.

Nous avons choisis deux méthodes d'extractions: la première est l'utilsation des expressions régulières, la seconde est via une bibliothèque XML::RSS


Avec expression régulière:

Voici le script commenté:


Pour télécharger le script, cliquez ici

Pour télécharger les résultats obtenus, cliquer ici


Avec XML::RSS:

Voici le script commenté:


Pour télécharger le script, cliquez ici

Pour télécharger les résultats obtenus, cliquer ici