Projet encadré 2

Lakkhana EAR

M1 TAL 2021-2022
Sorbonne Nouvelle

Objectif BàO1 :

Extraire les contenus textuels des fils RSS de l'arborescence : les contenus des balises title et description.

La BàO1 a produit 2 sorties : 1 fichier TXT et 1 fichier XML

Exemples : noms et numéros de rubriques des fichiers RSS du journal Le Monde

Appliquer le traitement d'extraction des données textuelles d'un fil RSS à toute l'arborescence de fils RSS/XML qui prend les articles du journal "Le Monde" en ligne de l'année 2021. L'objectif de cette boîte à outils est d'extraire le titre et la description de chaque article. Pour conduire à construire 2 programmes d'extraction des contenus textuels, on a créé un script Perl qui extrait les informations mentionnées ci-desus selon une rubrique donnée. Dans le cadre de cet exercice, on a pris seulement les articles de la rubrique "Une" représentée par les chiffres "3208" et "Sport" représentée par "3242".

Ligne de commande pour lancer le programme :
perl bao1.pl 2021 3208perl bao1.pl 2021 3242

La sortie de texte brut pour la rubrique "Une" representée par les chiffre 3208 :
La sortie de texte brut pour la rubrique "Sport" representée par les chiffre 3242 :