Boîte à Outils 1

Le but de cette boîte à outils est de parcourir l'arborescence des fichiers dans l'ensemble des fils RSS du journal Le Monde et d'extraire des informations de chaque fichier XML.

Pour regarder les fichier RSS, cliquez ici.

À cette étape on extrait simultanément le titre et la description de chaque item dans le fichier XML de chaque article dans le RSS, puis on stocke l'information textuelle des titres et des description dans un fichier texte, et en même temps on utilise formalise ces information dans les balises <titre> et <description> puis on les stocke dans un fichier XML.

Pour ce faire, on doit utiliser le script perl. On a deux moyens de réaliser cette tâche, avec l'expression régulière ou avec la bibliothèque XML::RSS. Voici ces deux script perl.

Méthode REGEX :



Méthode XMLRSS :



Ensuite on exécute le script sur cygwin:

et on obtient un résultat en texte et en XML pour chaque rubrique. Voici un échantillon:

Résultat en txt:



Résultat en XML:



Dès que l'on a fini cette exécution, on a le fichier TXT et XML, et on peut l'utiliser pour l'étape suivant: BàO2, étiquettage. Voici le dossier qui contient les scripts et les résultats d'échantillon: