Script initial - extraction par rubrique
A cette étape on s'intéresse aux données de 2012 et aux rubriques : on veut des sorties distinctes par rubrique !
Pour ce faire, on stocke les noms des rubriques dans un tableau associatif.
On a besoin d'apporter quelques modifications supplémentaires au script initial pour traiter les données de 2012. On remarque que les fichiers de 2012 sont encodés en utf-8, donc on aura juste besoin de les encoder en iso-latin-1 pour les sorties TXT. Et on n'oublie pas de modifier l'en-tête use open ":encoding(utf8)";
Vu que les codes des rubriques sont légèrement différents, on a besoin de modifier un peu l'expression régulière du parcours d'arborescence de fichiers:
if ($file=~/(0,\d+-(0,)*\d{2,}(,1)*-\d+,0)\.xml$/).
On introduit aussi un moyen de nettoyage moins rustique : le module HTML::ENTITIES !!!
La particularité de ce module est qu'il nous épargne l'effort de rédiger une liste exhaustive des entités HTML. Ce qu'il restait à ajouter au sous-programme de nettoyage pourtant étaient les balises des images, des liens et les esperluettes (repérées dans des accronymes comme 'H&M').
Pour télécharger le script cliquez ici.