Extraction :

La première partie sert à extraire le texte des fils RSS.
Pour commencer, le programme prend en entrée deux arguments :


Le premier indique le répertoire de fichiers à parcourir, ici nos fils RSS classés par mois et par jour. Le second indique le nom de la rubrique à extraire.

Le programme commence par appeler le sous-programme "parcoursaborescencefichier" avec le répertoire indiqué en premier argument en tant que paramètre. On itère alors sur l'arborescence spécifiée par ce dernier. On dissocie les balises et leur contenu via une simple expression régulière en séparant les titres des descriptions, enfin on va stocker le contenu dans deux variables que l'on va insérer dans un dictionnaire ayant pour clé un titre et en valeur la description lui correspondant.


Nettoyage :

On nettoie ensuite les titres et les descriptions à l'aide de plusieurs expressions régulières afin de retirer tout résidu du format XML qui pourrait poser problème lors du passage du texte par l'analyseur morpho-syntaxique.




Enfin, pour terminer cette boîte à outils, on initialise une variable où l'on va concaténer le contenu des strings $titre et $description afin de séparer la suite du programme en deux tâches : On utilisera les titres et les descriptions de manière dissociées avec TreeTagger alors que nous utiliserons les deux mélangés avec Talismane.