Attention! : dans notre projet, nous avons decidé de travailler sur une seule rubrique(international).En effet, nous avons integré un programme à notre script qui demande à l'utilisateur de choisir une rubrique ou tout le corpus à l'execution de ce dernier.
Le but de la BàO1 est de créer un script perl capable de parcourir l'arborescence des fichiers XML.
On doit ensuite extraire le contenu de la ou des rubriques qui nous intéresses.En effet on veut récupérer en sortie tous les contenus concaténés des balises <description> et <title> dans les fils RSS via les expressions régulières et la bibliothèque Perl XML::RSS.
Schéma:
Récupération du fichier xml qui nous intéresse avec une expression régulière et ouverture de la commande OPEN(FILE):
Lecture du fichier avec la commande <FILE>:
Ici si les données extraites ne sont pas en utf-8 on les conertit, alors, en utf-8:
Extraction des titres et des résumés:
Une deuxième fonction donnée au départ par les profs nous permet de nettoyer les textes à travers des expressions régulières:
Elle est appelée de la façon suivante:
SCRIPT:
RESULTATS:
• Téléchargement des résultats en format txt et xml: Cliquez-ici
XML::RSS est une librairie Perl qui permet de traiter les flux RSS (RDF Side Summary). Les méthodes permettent la manipulation des flux. Normalement il permet de créer des fichiers RSS, mais nous allons juste exploiter ses fonctionnalités pour l'extraction des données qui nous intérèssent:
Le script s'appuie sur le script de base, mais c'est dans le filtrage du texte que nous voyons les premières différences. Nous initialisons l'objet et le "parsons":
Ensuite nous récupérons les contenus des balises titre et description, fils de la balise item:
SCRIPT:
RESULTATS:
• Téléchargement des résultats en format txt et xml: Cliquez-ici
BàO 1:
• Téléchargement de la boite à outils 1: Cliquez-ici
Par le biais de ce site, nous tenions à remercier les enseignants de cette 1ère année de Master sans qui nous ne serions pas là à vous faire une dédicace.Nous tenons à remercier Mr Fleury, Mr Daube et Mr Belmehoub