Projet Encadré

BAO1 : Extraction du titre et de la description

Dans cette étape, nous allons parcourir les répertoires de fichiers RSS et extraire le titre et la description de chaque article, et à la sortie nous aurons des informations extraites sous forme texte brut et xml.

Les fichiers texte brut seront prochainement étiquetés via le programme Cordial.

Les fichiers xml seront étiquetés via le programme Treetagger.

Le répertoire donné par l'enseignant contenant tous les fichiers RSS extrait du site de journal le Monde de l'année 2016, et grâce aux script écrit en perl fournis par l'enseignant, nous avons appris à modifier le code et réussi à obtenir les résultats attendus.

Premier essai :
Au départ, nous avons essayé d'exécuter le premier script perl, qui va permettre d'extraire le contenu d'un seul fichier RSS de l'année 2016 (Ceci n'est qu'un petit corpus pour tester le programme), et la rubrique que nous avons choisir pour tester est ''à la une''(0,2-3208,1-0,0). Normalement nous avons un fichier de sortie en texte brut et un autre en XML, de cette manière nous avons lancé un deuxième script qui va prendre en entrée :

Le nom du répertoire contenant les fichiers à traiter (nous testons toujours avec la rubrique ''à la une'' dans cette étape).

Cliquer pour afficher le script perl

Cette version du programme va construire en sortie un fichier structuré contenant sur chaque ligne le nom du fichier et le résultat du filtrage :

Après cette étape de la BAO1, nous avons désormais tous les fichers RSS dans le rubrique ''à la une'' de l'année 2016 du journal Le Monde. À partir de ces informations obtenues, nous allons prochainement étiqueter les tokens de la manière morphosyntaxique.