Extraction des fils RSS sur le corpus 2016

BOITE À OUTILS 1

Ici il'sagit de toute première étape, qui consiste à extraire le contenu de fichiers qui se trouve dans une arborescence. Cet arborescence est un dossier qui regroupe toute l'actualité de journal Le Monde pour l'année 2016.

Cet énorme dossier sur lequel je vais travailler est une arborescence de fichiers. Le dossier racine est l'année, ce dossier contient tous les mois de cette année, chaque mois contient tous ses jours et chaque jours contient tous les fichiers (articles) rédigés dans ce jour sous forme txt et xml.


voici un image afin que vous visualisez un peu mieux.

.

Cette étape comme nous l’avons mentionné auparavant consiste à extraire le contenu textuel dont nous allons manipuler dans les étapes à venir. Le contenu s’agit de texte qui se trouve dans les deux balises item et description qui se trouvent à leurs tour dans tous les fichiers de corpus.

Je vous mets ici quelques captures d'écran de notre script perl, commenté afin que vous compreniez la procédure. vous trouverezLe script complet en pièce-jointe. Vous pouvez le consulter et le télécharger.


Pour exécuter le script, nous devons définir d'ores et déjà les rubriques sur les quels nous allons travailler. Comme vous le savez le RSS du journal Le monde contient tous sujet de notre vie, tels que la politique, social, cinéma, téchnologie etc... Nous sommes initiés à choisir au moins deux rubriques afin qu'on puisse faire notre analyse finale. Pour ma part, j'ai choisi les rubriques Cinéma Culture et Économie. et Voici un image que vous montre les différents rubriques dont le journal Le monde traite.


Voici les résultats obtenus