Lauryane Bonduelle

Programmation et Projet encadré

BAO1 - Extraction

BAO1 : Extraction du texte : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)

Le but de ce premier exercice est d'extraire les titres et descriptions de chaque article présent dans le fil RSS 2021.

Pour cela, on commence par parcourir l'arborescence des fichiers, organisés en dossiers de mois puis de jours, et contenant un fichier XML par rubrique du site. Lorsque l'on tombe sur un fichier xml, on lance la fonction qui récupère les balises <title> et <description>, puis on extrait ces données à la fois dans un fichier txt et dans un fichier xml.


Les deux scripts sont à lancer avec en arguments : [chemin vers le dossier RSS][fichier sortie xml][sortie fichier txt]

Script Python

Script Perl