Script Perl

La boîte à outils 1 représente la première étape de traitement des fichiers dans l'arborescence donnée via un script Perl. Nous présentons ici deux solutions possibles où nous récupèrons des flux RSS des fichiers présents et nous les mettons dans les nouveaux fichiers que nous créons dans le script. D'un côté, le résultat est représenté sous forme d'un texte brut, de l'autre côté, les fichiers comportent le résultat au format xml. Les deux script présentés nous permettent d'obtenir les mêmes résultats, pourtant le contenu des programmes n'est pas le même.

1. Expressions régulières

Nous commençons notre travail par la création d'un programme en Perl qui est capable de traiter l'arborescence de fichiers contenant des flux RSS. Nous nous initions à Perl à partir des opérations de filtrage et nettoyage d'un texte des fichiers au format .xml. Alors, notre programme prend en entrée ces fichiers de chaque répertoire du journal Le Monde, il traite le texte des fichiers à l'aide des expressions régulières afin d'extraire au final les balises "title" et "decription". Ensuite, le programme crée des fichiers de sorties qui contiennent les résultats du traitement. Cette méthode est basée sur l'utilisation des expressions régulières dans le script qui récupère le motif exigé et le met dans des fichiers .txt en tant que "texte brut" et de l'autre côté dans des fichiers XML contenant les balises recherchées.

2. Bibliothèque XML::RSS

La deuxième solution représente un autre script Perl qui fait le même travail est qui donne les mêmes résultats au final. Ce script utilise une autre méthode pour récupérer les balises. Dans ce script nous faisons appel à la bibliothèque XML::RSS qui nous permet de créer et mettre a jour des flux RSS.

3. Choix des rubriques

Le troisième script nous donne aussi les mêmes résultats que les deux autres, en plus nous avons la possibilité de choisir une rubrique afin d'effectuer l'exécution sur une seule rubrique précise. En effet, le test de condition, auquel nous avons recours dans le script pour choisir une rubrique, nous prépare également à l'étape de la boîte à outils 2 où nous avons à parcourir les fichiers d'une manière plus compliquée et où l'extraction des rubriques nous sera utile.