BàO 1: "extraction du texte"

Nous allons parcourir toute l'arborescence et extraire les contenus textuels de tous les fils. Nous allons commencer par extraire tous les titres et descriptions d’un fils RSS. En analysant un fils RSS, on vas distinguer où se trouve les titres et les descriptions :

Script en Python

Commande afin de lancer le script : python BAO1.py /2021 3208. Nous allons avoir en sortie deux fichiers : un fichier .xml qui correspond aux titres et descriptions en format XML, un autre qui est en .txt qui nous sort la même chose en format texte.



Script en Perl



Conde afin de lancer le script : perl BAO1.pl /2021 3208. ce dernier nous donne en sortie deux fichiers : un fichier .xml qui correspond aux titres et descriptions en format XML, un autre qui est en .txt qui nous sort la même chose en format texte.

On obtient le résultat suivant:

Les résultats de l’exécution consiste en deux fichier , au format texte et au format XML qui contiennent l’extraction des titres et des description d’articles pour la rubrique indiquée à trouver ci-dessous. À LA UNE -- 3208 -- TEXTE À LA UNE -- 3208 -- XML

INTERNATIONAL -- 3210 -- TEXTE INTERNATIONAL -- 3210 -- XML

VOYAGE -- 3245 -- TEXTE VOYAGE -- 3245 -- XML

SOCIETÉ -- 3224 -- TEXTE SOCIETÉ -- 3224 -- XML