XML::XPATH

 

XML::XPath a été le premier module Perl à utiliser la méthode DOM et le langage XPath (XML Path), utilisé pour localiser une portion d'un document XML et récupérer son contenu.

 

Ainsi, on utilise cette bibliothèque pour identifier et extraire directement les balises ou les nœuds qui nous intéressent.

 

 

photo

 

Les résultats de l'extraction ont été plutôt satisfaisants, à une seule exception : en essayant de traiter l'ensemble des dossiers des fils RSS 2012, nous avons remarqué un défaut dans les fichiers XML : l'absence de la balise fermante pour la rubrique, c'est-à-dire de la racine. Pour mener à bien le traitement, nous nous sommes vues forcées de regrouper un nombre moindre de dossiers et les traiter séparément.

 

Téléchargez le script ici

 

A titre d'exemple, un fichier de résultats peut être téléchargé ici. Le code de la feuille de transformation XSL peut être visualisè ici.