Qu'est-ce qu'on fait?

  • La tâche est d'extraire le contenu de la balise "title" et "description" dans les fichiers xml de chaque rubrique concernée, sur l'intégralité de l'arborescence; On concatène les titres et les descriptions de la même rubrique dans un seul fichier en format xml et aussi en txt. Concernant la rubrique, il faut parcourir l'arborescence en cherchant uniquement les fichiers xml dont le nom porte le même indice de rubrique. On a deux façons de faire ce travail.
  • Attention: on ne peut pas de doublons dans le résultat. Et pour générer un xml bien formé, on doit nettoyer et substituer certains éléments du texte.

  • Méthode 1 ---- "chercher les infos avec l'expression régulière"

  • On remarque, le titre et la description d'un article est englobé dans la balise supérieure de "item", donc la méthode s'agit de reconnaître le contenu entre les balises "item" par le REGEX "<item>.*?<title>([^<]*?)<\/title>.*?<description>([^<]*?)<\/description>.*?<\/item>". Par la sélection entre parenthèses, le titre et la description sont donc extraits. Le script perl est ici.

  • Méthode 2 ---- "chercher les infos à l'aide de XML::RSS"

  • XML::RSS est une module en Perl qui nous permet d'analyser facilement un fichier RSS en XML. On peut facilement obtenir le contenu d'un élément par saisir sa balise. Le script est ici.

  • La sortie: un fichier txt et un fichier xml par rubrique

    sortie REGEX: 3210.txt 3210.xml 3214.txt 3214.xml 3224.txt 3224.xml

    Sortie XML::RSS: 3210.txt 3210.xml 3214.txt 3214.xml 3224.txt 3224.xml