1. Expressions régulières
Nous commençons notre travail par la création d'un programme en Perl qui est capable de traiter l'arborescence de fichiers contenant des flux RSS. Nous nous initions à Perl à partir des opérations de filtrage et nettoyage d'un texte des fichiers au format .xml. Alors, notre programme prend en entrée ces fichiers de chaque répertoire du journal Le Monde, il traite le texte des fichiers à l'aide des expressions régulières afin d'extraire au final les balises "title" et "decription". Ensuite, le programme crée des fichiers de sorties qui contiennent les résultats du traitement. Cette méthode est basée sur l'utilisation des expressions régulières dans le script qui récupère le motif exigé et le met dans des fichiers .txt en tant que "texte brut" et de l'autre côté dans des fichiers XML contenant les balises recherchées.