BAO 1


Extraction du corpus des fils RSS du journal Le Monde


L'objectif de cette étape est la création de corpus à la base des fils RSS. Pour réaliser ce travail la rubrique Cinéma - 0,2-3476,1-0,0 a été choisie. Pour tout le projet on a utilisé le dataset qui contenait l'archive du magasin Le Monde de l'année 2021. Cette étape implique d'extraire les contenus des fils RSS. Le résultat des documents devait être en deux formats: .txt et .xml. Pour réaliser ce travail nous avons rédigé deux script: le premier en Perl et l'autre en Python. Même si deux scripts sont écrits en deux langages différents, il servent à exécuter la même tâche d'extraction des données et création des fichiers avec les sorties en extensions mentionnées en dessus. La première BAO parcourt l'arborescence et accède aux fichiers qui contiennent les documents à traiter. Les codes Python et Perl extraient le contenu et le récupèrent dans les fichiers comportant tous les titres et les description en extensions .txt et .xml