BàO
[ Boîtes à outils ]

Un projet réalisé dans le cadre du master PluriTAL

Le projet



Objectifs. Le projet "boîtes à outils" (BàO) met en œuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation.

Les scripts que nous nous apprêtons à analyser représentent les différentes étapes de ce projet permettant de:

I. récupérer et nettoyer les données textuelles des fils RSS du journal Le Monde (BàO1)
II. les étiqueter (BàO2)
III. faire de l'extraction terminologique (BàO3)

Les données. Le corpus de travail est composé des 17 fils RSS du journal Le Monde et il a été archivé par M. Serge Fleury à travers le programme Unix cron permettant d'automatiser l'exécution des scripts à une date et une heure spécifiés à l’avance. Chaque fil représente une rubrique (International, À la Une, Société...).

Pour chaque jour de chaque mois de l'année 2018 ces 17 fils RSS ont été téléchargé. Le but est maintenant de choisir deux rubriques, en extraire le texte souhaité et produire en sortie deux fichiers différents: le premier est un fichier en texte brut et le second en XML.

Tout d'abord nous avons extrait le contenu textuel. Pour cela, nous avons indiqué une rubrique spécifique de laquelle nous avons récupéré tous les titres et les descriptions du répertoire 2018. Une fois les informations dégagées du fichier initial, elles sont stockées dans deux fichiers différents: le premier est un fichier en texte brut et le second en XML. Ces derniers vont eux mêmes être étiquetés par deux logiciels différents. Nous obtenons alors des textes étiquetés morphosyntaxiquement. La troisième BàO est l'extraction, selon un patron morphosyntaxique donné, des éléments lexicalisés correspondants. Enfin, la quatrième et dernière étape (BàO 4) permet d'illustrer graphiquement les occurrences des patrons extraits à partir des résultats obtenus.