L’objectif de notre projet est d'extraire des patrons morphosyntaxiques sur base des flux RSS du journal "Le Monde" de l'année 2016 et d'utiliser ces patrons pour réaliser des graphes. Ces graphes pourront par la suite servir de base à la construction d'une ontologie.
L'extraction s'effectue en plusieurs étapes à l'aide de scripts Perl :
Les flux RSS sont organisés selon une arborescence bien précise. La première étape est de parcourir cette arborescence et d'extraire les titres et les descriptions des flux RSS.
La deuxième étape porte sur l'étiquetage des titres et des descriptions obtenus au moyen des logiciels Treetagger et Cordial.
La troisième étape a pour but de rechercher des patrons morphosyntaxiques choisis dans les fichiers étiquetés.
La quatrième et dernière étape concerne la création des graphes et les représentations graphiques des patrons extraits précédemment.