Le projet Boîtes à Outils(BàO) se déroule dans le cadre du cours Programmation&Projet encadré 2 du master1 Traitement automatique des langues. Le projet consiste à extraire des données depuis les fichiers RSS recueillis d’un média, puis à les étiqueter au niveau morpho-syntaxique, à filtrer et à obtenir des paires de mots (patrons) selon leur catégorie grammaticale, et enfin à créer des graphes selon un motif pour visualiser ces données.
Pour le résultat optimal de ce projet, nous avons eu recours à des outils divers, y compris le Perl, XML, CSS, treetagger, etc.
Nous avons choisi pour ressources de corpus tous les fichiers RSS du jounal Le Monde de l’année 2016, et plus précisément la rubrique « À la une » pour analyse. Le patron de mots pris en charge est « NOM+ADJ », et les motifs que nous avons choisis sont « crise » « économie » « environnement » et « politique ».
Guanhua WANG - INALCO
Audrey CORNU - INALCO