Retour-Accueil

La Boîte À Outils 1


Objectif

Le principe de cette Boîte à Outils 1 est de parcourir l'ensemble de notre arborescence de fils RSS sous format XML et d'en extraire les champs "titre" et "description", soit le contenu des balises en rapport.
Ces données seront ensuite enregistrés dans des fichiers sorties format txt et format XML.

Voici pour le contexte.

Fichier source RSS XML


Méthode

Nous avons mis en place deux façons de procéder.

Une première qui préfère utiliser les expressions régulières comme outil pour repérer dans le fichier XML les balises et donc le contenu qui nous intéresse.

La seconde consiste à utiliser le format XML de notre corpus pour chercher dans sa structure même par l'utilisation du module Perl XML:RSS


Procédé 1 par RegExp

Expression régulière pour capter les balises titre et description.

Attention nécessite certains ajustements comme la gestion de l'encodage de nos données d'entrée plus l'effacement des marques HTML dans le contenu. Nous voulons le texte simple.



Nous gérons de plus les doublons par un dictionnaire des titres qui enregistre ceux des articles déjà traités.

Écriture parallèle structuration XML et fichier TXT pour sortie

L'intérêt que nous portons à l'encodage est que nous voulons une sortie UTF-8.



Procédé 2 par navigation XML


Utilisation du module RSS de la bibliothèque Perl RSS

Passage dans la structure XML, capture d'éléments

Résultat

Deux fichiers formats TXT et XML contant les textes extraits.

Visuel extrait résultat XML

Visuel extrait résultat texte simple

Script RegExp Script RSS






©Kévin Deturck