BàO 1: Extraction - Nettoyage.

BàO 1:

La première partie de ce projet est la boite à outil 1. Nous avons choisi de travailler sur 3 rubriques du fil RSS du journal le monde de l'année 2016:

  • International 3210
  • Politique 0
  • Economie 3234
  • Nous allons extraire à l'aide d'un programme Perl pour chaque rubrique:

  • un fichier texte brut (.txt).
  • un fichier xml.
  • Le programme prend donc en entrée le répertoire à parcourir et le numéro de la rubrique

    Lancement du programme :

    On a au lancement de programme 2 fichiers par rubrique. Comme nous travaillons sur trois rubriques, on a 3 fichiers txt et 3 xml:

    Fichiers texte brut extraits:


  • fichier txt Politique: rubrique 0.
  • fichier txt Economie: rubrique 3234.
  • fichier txt International: rubrique 3210.

  • Fichiers xml extraits:

  • fichier xml Politique: rubrique 0.
  • fichier xml Economie: rubrique 3234.
  • fichier xml International: rubrique 3210.