Boîte à outils 1
Boîte à outils 2
Boîte à outils 3
Boîte à outils 4

Nous avons réalisé ce projet pendant notre deuxième semestre de Master 1 TAL au fil du cours de "Programmation et Projet Encadré 2". Il se décompose en 4 parties, ou boites à outils, chacune applicant un traitement supplémentaire à la précédente, formant une sorte de "pipeline"

Cette pipeline permettra, à partir du répertoire de flux RSS du journal Le Monde pour l'année 2016 de récupérer les titres et descriptions de chaque article paru dans une rubrique donnée (Sport dans notre cas), puis de les étiqueter morphosyntaxiquement grâce aux logiciels Cordial et TreeTagger afin d'en extraire les éléments correspondants aux patrons morphosyntaxiques choisis. Enfin, grâce au fichier patron2graphe.exe, nous rendrons les résultats obtenus visualisables sous forme de graphes.

  • La boite à outils 1

    Le premier élément de notre chaîne de traitement permet de parcourir toute l'arborescence 2016 du journal Le Monde, et d'en extraire pour chaque article, son titre et sa description, afin de créer un fichier texte et un fichier XML les contenant, qui seront ensuite utilisés par la boîte à outils 2.

  • La boite à outils 2

    Le deuxième élément de notre chaîne nous permettra d'annoter morphosyntaxiquement chaque mot des titres et descriptions

  • La boite à outils 3

    Grâce à cette étape, nous pouvons extraire des chaines de mots correspondants à des patrons morphosyntaxiques choisis (par exemple NOM ADJECTIF) dans les titres et descriptions précédemment collectés.

  • La boite à outils 4

    Enfin, nous transformerons les patrons morphosyntaxiques en graphes afin de les visualiser