Boîte à outils n°1 (BAO1)

Extraction du contenu textuel des fils RSS du Monde



L'objectif de cette première partie est de parcourir l'arborescence du dossier des flux RSS 2021 capitalisés et d'extraire les contenus textuels inclus dans les balises xml "title", "description" de la rubrique thématique choisie : rubrique International (code 3210).

Ce dossier a été téléchargé sur mon poste mais pour des raisons de taille du dossier, je ne l'ai pas mis sur ce site.


Processus suivi pour extraire le contenu textuel

L'arborescence du dossier est parcourue par mois, jour, heure, rubrique. Les extraits textuels "title", "description" des fichiers xml sont récupérés.




Extraction du contenu textuel à l'aide du langage de programmation PERL

Le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :

Sur le terminal, la requête suivante a été lancée perl BAO1-parcours-arborescence-fichiers.pl 2021 3210

En sortie, deux fichiers sont récupérés :





Extraction du contenu textuel à l'aide du langage de programmation PYTHON

Le script PYTHON qui a été utilisé est détaillé dans le lien ci-dessous :

Sur le terminal, la requête suivante a été lancée python BAO1_python.py 2021 3210

En sortie, deux fichiers sont récupérés :







Résultats

Les contenus textuels des champs "titre" et "description" de l'ensemble des actualités internationales du journal "le Monde" parues en 2021 ont bien été extraits sous format txt :


et sous format xml :

Retour en haut