Projet encadré 2

Boîtes à Outils: extraction, étiquetage, filtrage et visualisation des données

⬇︎

Présentation du projet

Le projet Boîtes à Outils(BàO) se déroule dans le cadre du cours Programmation&Projet encadré 2 du master1 Traitement automatique des langues. Le projet consiste à extraire des données depuis les fichiers RSS recueillis d’un média, puis à les étiqueter au niveau morpho-syntaxique, à filtrer et à obtenir des paires de mots (patrons) selon leur catégorie grammaticale, et enfin à créer des graphes selon un motif pour visualiser ces données.

Pour le résultat optimal de ce projet, nous avons eu recours à des outils divers, y compris le Perl, XML, CSS, treetagger, etc.

Nous avons choisi pour ressources de corpus tous les fichiers RSS du jounal Le Monde de l’année 2016, et plus précisément la rubrique « À la une » pour analyse. Le patron de mots pris en charge est « NOM+ADJ », et les motifs que nous avons choisis sont « crise » «  économie » « environnement » et « politique ».

Étapes en détails

La description et les ressources des étapes ci-dessous

En savoir plus

Membres du groupe

Guanhua WANG - INALCO

Audrey CORNU - INALCO