Alican Yüksel

alicanyuksel@outlook.com

Oussama Id Ali

oussamaidali@gmail.com

Boite à outil 1

La boîte à outils 1 (BàO 1) nous permet de réaliser une sorte d'extraction d'information concernant les contenus textuels de flux RSS.

Les programmes codés réalisent la meme action :
On récupere les contenus des fichiers RSS de notre corpus.
Ensuite, on structure nos données en mettant dans deux fichiers différents : un fichier texte brut et un fichier XML.

Pour ce faire, les programmes parcourtent l'arborescence du corpus (Dossiers, et sous dossiers), extraient des flux RSS (format XML) le texte et crééent en sortie les fichiers texte et XML.

Les rubriques que nous avons choisies, ce sont "La une", "L'international" et "L'Europe"

En TAL, vous auriez toujours beaucoup de cochonneries à nettoyer.
- SF / JMD -

Script en Perl

Quand on lance le script, on devrait donner 2 arguments :

ARG°1 => Le répertoire que nous voulons parcourir
ARG°2 => La rubrique dont nous voulons extraire le texte

Le programme va d'abord aller chercher les items et ensuite pour chaque item, on va faire un nettoyage pour le titre et la description.
Ensuite on va les écrire dans deux fichiers (un fichier txt et un fichier xml)

Pour lancer le programme :
Syntaxe : perl bao1.pl 2018 3208

Script Perl-BaO1 : Cliquez ici pour télécharger !

Script en Perl avec le module XML:RSS

On a fait le même script avec un module XML:RSS.
La seule partie qui change c'est la partie évaluation du fichier puisqu'ici nous avons des fichiers RSS.
Ainsi, l'instruction eval {$rss->parsefile($file) vérifie bien si le fichier $file est bien un fichier RSS.

Le script complet avec le module XML:RSS

Script Perl-BaO1 avec XML:RSS : Cliquez ici pour télécharger !

Résultats obtenus via le script Perl

Sortie XML 3208 : Cliquez ici pour télécharger !
Sortie TEXTE 3208 : Cliquez ici pour voir !

Sortie XML 3210 : Cliquez ici pour télécharger !
Sortie TEXTE 3210 : Cliquez ici pour voir !

Sortie XML 3214 : Cliquez ici pour télécharger !
Sortie TEXTE 3214 : Cliquez ici pour voir !

Remarques

Pour le script Perl avec ou sans le module, les sorties sont les mêmes. Pour la sortie XML, il est possible d'ajouter des autres éléments aussi. Nous avons préféré garder seulement les titres et les descriptions. Mais il était tout à fait possible d'ajouter par exemple la date pour chaque article.

Pour les deux scripts, on peut dire que le premier est plus rapide que le deuxième avec le module XML:RSS. Cela nous montre que Perl est plus performant avec les regex.


Script en Python

Avant de vous présenter le code, on aimerait préciser qu'on a essayé de travailler en Python afin de pouvoir apprendre et découvrir les nouveautés. On n'avait pas pour but de battre Perl en termes du temps. Nous, ce qu'on voulait tout simplement, c'était d'essayer de faire la meme chose en Python.

Vous aurez les commentaires dans le code pour que vous puissiez mieux comprendre ...

Script Python-BaO1 : Cliquez ici pour télécharger !

Résultats obtenus via le script Python

Sortie XML 3208 : Cliquez ici pour télécharger !
Sortie TEXTE 3208 : Cliquez ici pour voir !

Sortie XML 3210 : Cliquez ici pour télécharger !
Sortie TEXTE 3210 : Cliquez ici pour voir !

Sortie XML 3214 : Cliquez ici pour télécharger !
Sortie TEXTE 3214 : Cliquez ici pour voir !

N'oubliez pas d'aller vers BaO2

Pour faire cela, il faudrait fermer cette fenetre et taper bao2 sur le terminal :)