BAO 1

Extraction des contenus textuels

La BAO 1 a pour objectif d'extraire pour chaque fil RSS le contenu des balises titres et descriptions contenues dans ce dernier et de les concaténer dans un fichier correspondant à une rubrique. Pour cela il faut parcourir l'arborescence et grâce à une boucle récupérer la rubrique recherchée par mois et par jour, et en extraire les balises que nous recherchons.

Pour ce faire, on utilise dans le script perl des expressions régulières. Le programme est appelé dans le terminal et on lui passe en argument le nom du répertoire 2019 puis la rubrique dont on souhaite extraire les balises. Ici les rubriques sont 3224 (société), 3210 (international) et 3232 (idées). Les fichiers sont donc lus ligne à ligne tant que le programme parcourt l'arborescence par récursivité (procédure sub parcoursarborescencefichiers), et grâce aux patrons détaillés à l'aide d'expressions régulières les contenus des balises texte et descriptions sont récupérés. Le programme permet de supprimer les doublons ainsi que se "débarasser" des entités XML, qui auraient posé problème lors de l'étiquetage qui a lieu lors de l'étape suivante.

La sortie de ce programme consiste en deux fichiers, l'un au format texte et l'autre au format XML. Dans le fichier de sortie texte, le titre et la description sont chacun sur des lignes se suivant. Dans le cas de la sortie XML, le titre est contenu dans une balise "titre", de même pour la descriptions. Ces deux balises sont elles-mêmes contenues dans la balise "item", qui est contenue dans la racine "corpus2019".

Ci-dessous, le programme, accompagné des différents fichiers de résultats

Commentaires

Il était aussi question lors du projet de faire une version de la BAO en exploitant la bibliothèque perl XML :: RSS, cependant à cause de la situation, cela n'a pu être réalisé. Cependant on a pu observé que le programme fonctionne correctement et tourne rapidement.