Boîtes à outils 1

Extraction des titres et descriptions - filtrage par rubrique.




Présentation de la boîte


La boîte à outil 1 consiste à extraire et nettoyer les contenus textuels des titres et descriptions d'articles des fils RSS du corpus, en fonction de rubriques prédéfinies. Le programme prend en premier argument le répertoire à traiter, parcourt son arborescence dans son intégrité (c'est à dire inspecte tous les descendants), et traite tous les fichiers XML rencontrés correspondant à la rubrique passée en deuxième argument.

La tâche a été réalisée selon deux méthodes distinctes :

- un script perl faisant appel aux expressions régulières, traitant donc les fichiers d'entrée comme des chaînes de caractères.

- un script perl faisant appel au module XML::RSS, traitant les fichiers d'entrée comme des arborescences dans lesquelles chercher des noeuds.

Fonctionnement


Chacun des 2 programmes prend en argument le répertoire à traiter, ainsi que la rubrique choisie. Il faut donc executer le programme pour chaque rubrique. Nous avons choisi d'en traiter quatre : International (3210), Planète (3244), Cinéma (3476), Technologies (651865).

Le programme traite en suite chaque fichier de l'arborescence ayant pour racine le répertoire passé en argument, via un processus de récursion. Pour chaque fichier XML contenant le code de la rubrique dans son nom, le contenu des balises <titre> et <description> de chaque item est extrait, nettoyé, et écrit (en évitant les doublons) dans deux fichiers de sorties : un fichier txt et un fichier xml.

Méthode 1 - regexp


La méthode 1 repose sur les regexp. Voici le script perl correspondant :



Télécharger le programme

Méthode 2 - XML::RSS


La méthode 2 exploite le module XML::RSS. Voici le script perl correspondant :



Télécharger le programme

Résultats


Les résultats étaient quasiment identiques pour les deux programmes. On note quelques entrées en moins pour la méthode 2 (module XML::RSS). En observant de plus près les entrées manquantes et leurs fichiers d'origine, il s'avère qu'il s'agissait de fichiers XML mal formés, très probablement tronqué (balise racine non refermée), le module ne pouvait donc pas parser le fichier et le programme affichait un message d'erreur. Les résultats (de la méthode 1, car plus complets) sont téléchargeables depuis le tableau ci-dessous:

Rubrique Résultat txt Résultat xml
International (3210)
Planète (3244)
Cinéma (3476)
Technologies (651865)


La suite dans la boîte à outils 2!


Ecrivez-nous!


Nous sommes deux étudiantes en TAL très passionnées et motivées! N'hésitez pas à nous écrire pour toute information sur ce projet (ou offre de stage ou d'emploi).