PROJET ENCADRE 2 - L8TI003

BOITES À OUTILS

BAO1 "extraction du texte"

L'objectif de la BAO1 est l'extraction des contenus textuels consernant les titres et les descriptions des articles dans une arborescence de fils RSS du journal Le Monde. Les fils ont été reccueillis une fois par jour à 19h pendant l'année 2021.

Script Perl

Download

Bao1_Jiaxin_He.pl

Voici le détail :

On nettoie le text et extrait les cotenus des titres et des descriptions. Pour éviter d'extraire les doublons, on a ajouté un dictionnaire dans ce script par rapport qu'on avait fait en cours.

Commande Perl

Script Python

Download

Bao1_Jiaxin_He.py

Voici le détail :

On fait le même traitement que perl pour supprimer prendre les phrases deux fois et on programme une fonction pour parcourir les fichiers à traiter plus tard.



Commande Python

Fichiers sortis :

On obtient deux fichiers au format txt et au format xml qui sont nécessaires pour la phase suivant.

Le fichier txt :

Le fichier xml :

Résultats 3210

perl - sortie xml - 3210

perl - sortie txt - 3210

python - sortie xml - 3210

python - sortie txt - 3210



Résultats 3234

perl - sortie xml - 3234

perl - sortie txt - 3234

python - sortie xml - 3234

python - sortie txt - 3234



Résultats 823353

perl - sortie xml - 823353

perl - sortie txt - 823353

python - sortie xml - 823353

python - sortie txt - 823353