Script initial - extraction par rubrique

 

A cette étape on s'intéresse aux données de 2012 et aux rubriques : on veut des sorties distinctes par rubrique !

 

Pour ce faire, on stocke les noms des rubriques dans un tableau associatif.

 

photo

 

 

On a besoin d'apporter quelques modifications supplémentaires au script initial pour traiter les données de 2012. On remarque que les fichiers de 2012 sont encodés en utf-8, donc on aura juste besoin de les encoder en iso-latin-1 pour les sorties TXT. Et on n'oublie pas de modifier l'en-tête use open ":encoding(utf8)";

 

Vu que les codes des rubriques sont légèrement différents, on a besoin de modifier un peu l'expression régulière du parcours d'arborescence de fichiers:

 

if ($file=~/(0,\d+-(0,)*\d{2,}(,1)*-\d+,0)\.xml$/).

 

On introduit aussi un moyen de nettoyage moins rustique : le module HTML::ENTITIES !!!

 

 

 

La particularité de ce module est qu'il nous épargne l'effort de rédiger une liste exhaustive des entités HTML. Ce qu'il restait à ajouter au sous-programme de nettoyage pourtant étaient les balises des images, des liens et les esperluettes (repérées dans des accronymes comme 'H&M').

 

Pour télécharger le script cliquez ici.