Dans cette BAO, un script Perl est utilisé dans le but d'extraire le contenu (titre et texte) de chaque fil RSS des quinze premiers jours de l'année 2008.

Cliquez ici pour télécharger le programme

Nous devions créer un fichier .xml et un fichier .txt par rubrique du journal Le Monde. Chacun de ces fichiers devant contenir tous les titres, associés à leurs descriptions, parus dans cette rubrique dans la période donnée.
Un fil RSS est un fichier possédant un structure XML. Les informations qu'il contient sont donc sous forme d'arborescence dans laquelle on peut se déplacer pour trouver une information précise. Pour cela, nous avons utilisé la bibliothèque Perl XML::RSS.

Ensuite, pour éviter les soucis d'encodage, nousa vons utilisé la bibliothèque XML::Entities::decode, qui permet un nettoyage très efficace des éléments extraits des fils RSS

On remarquera cependant que lors du traitement de ces fils RSS, le nombre d'items traités sera inférieur au nombre d'items existant. En effet, notre programme fait en sorte qu'il n'y ait pas de titres ou descriptions en double, ignorant le fait qu'ils se trouvent dans des rubriques différentes. C'est donc une source d'appauvrissement du contenu de nos fichiers de sortie.

Voici un aperçu des fichiers obtenus :

Fichier texte


Fichier xml

Cliquez ici pour télécharger les sorties .txt

Cliquez ici pour télécharger les sorties .xml