Ce projet est réalise dans le cadre de notre première année de master TAL cohabilité par l'INALCO, Paris III et Paris X. Il met en oeuvre la récupération, l'extraction de données, l'automatisation de cette extraction et la programmation de l'analyse de patrons morphosyntaxiques extraits des flux RSS du Monde sur l'année 2015.
La boîte à outils n°1 comporte un script de récupération des données, la boîte à outils n°2 permet l'automatisation de l'extraction par la mise en place d'une chaîne de traitement sur plusieurs fichiers, la boîte à outils n°3 extrait les patrons morphosyntaxiques choisis et la boîte à outils n°4 donne une représentation graphique des résultats obtenus.
Ce projet, dans un cadre universitaire, nous permettra d'étudier la réalisation d'une chaîne de traitement sur un grand corpus mais aussi la gestion de données au format XML et leur réutilisation.