Le principe de cette Boîte à Outils 1 est de parcourir l'ensemble de notre arborescence de fils RSS sous format XML et
d'en extraire les champs "titre" et "description", soit le contenu des balises en rapport.
Ces données seront ensuite enregistrés dans des fichiers sorties format txt et format XML.
Voici pour le contexte.
Fichier source RSS XMLNous avons mis en place deux façons de procéder.
Une première qui préfère utiliser les expressions régulières comme outil pour repérer dans le fichier XML les balises et donc le contenu qui nous intéresse.
La seconde consiste à utiliser le format XML de notre corpus pour chercher dans sa structure même par l'utilisation du module Perl XML:RSS
Attention nécessite certains ajustements comme la gestion de l'encodage de nos données d'entrée plus l'effacement des marques HTML dans le contenu. Nous voulons le texte simple.
Nous gérons de plus les doublons par un dictionnaire des titres qui enregistre ceux des articles déjà traités.
Écriture parallèle structuration XML et fichier TXT pour sortieL'intérêt que nous portons à l'encodage est que nous voulons une sortie UTF-8.
Deux fichiers formats TXT et XML contant les textes extraits.
Visuel extrait résultat XML