Procédure 1 : BàO 1


EXTRACTION DU TEXTE

Présentation de BàO 1

Objectif : extraire les contenus textuels des fils RSS de l'arborescence (les contenus des balises title et description)

Moyens :
  - Expressions régulières : considérer le texte comme un « sacs de caractères » dans lequel on va essayer de repérer certaines régularités
  - XML::RSS : considérer que la structuration du texte est logique (sous la forme d'un arbre de « la famille RSS » ) et sa modélisation dans un programme pour au final n'avoir qu'à « cueillir » les feuilles textuelles visées

Moyen 1 : Par des expressions régulières

Pour utiliser ce moyen, le plus important est de trouver la régularité des articles. Enfin, la règle a été trouvée. Voici notre script et les résultats. Pour le fonctionner, il nous faut le mettre dans le même répertoire du dossier cible (ici c'est 2019).

Remarques :
  - Commande : perl BaO1-extraction-regex.pl repertoire-a-parcourir code-rubrique
  - Moyen : On extrait des titres et des descriptions à l'aide des expressions régulières.
  - Entrée : Le programme prend en entrée le nom du répertoire contenant les fichiers à traiter.
  - Sortie : Le programme construit en sortie deux fichiers :
    - BaO1-extraction-regex-sortie-slurp_$rubrique.txt : un texte brut séparé par « ------ » tous les articles
    - BaO1-extraction-regex-sortiexml-slurp_$rubrique.xml : un fichier structuré contenant les noms des articles et leur description sous la structure arborescente ci-dessous :

  - Fonction supplémentaire : À la fin de la programme, il nous affiche le temps de calcul.

3208 - « A la une »

Temps de calcul : 531,34 s

3246 - « Culture »

Temps de calcul : 9,18 s

3546 - « Voyage »

Temps de calcul : 6,64 s

Moyen 2 : Par le module XML::RSS

Remarques :
  - Commande : perl BaO1-extration-regex.pl repertoire-a-parcourir code-rubrique
  - Moyen : On extrait des titres et des descriptions à l'aide du module XML::RSS.
  - Entrée : Le programme prend en entrée le nom du répertoire contenant les fichiers à traiter.
  - Sortie : Le programme construit en sortie deux fichiers :
    - BaO1-extraction-xmlrss-sortie_$rubrique.txt : un texte brut séparé par "------" tous les articles
    - BaO1-extraction-xmlrss-sortiexml_$rubrique.xml : un fichier structuré contenant les noms des articles et leur description sous la structure arborescente ci-dessous :

  - Fonction supplémentaire : À la fin de la programme, il nous affiche le temps de calcul.

Pour utiliser ce moyen, le plus important est de comprendre le fonctionnement du module. Vous pouvez trouver ci-join notre script et les résultats. Le script se trouve à côté du dossier cible.

Script

Télécharger

Résultats

Comme j'ai utilisé la même structure arborescente, les sorties des scripts de ces deux moyens sont identiques. Voici les captures d'écran :