PRÉSENTATION

Le projet de ce semestre tourne autour le langage Perl. Nous allons utiliser des programmes donnés par nos professeurs et bien sûr codés en Perl. Nous allons plus au moins modifier ces programmes afin d’arriver à faire les manipulations et les opérations dont les programmes sont conçus pour. Le corpus sur le quel je suis initié à travailler sera un corpus composé de tous les fils RSS du journal Le monde de l’année 2016. Je vous laisse alors imaginer le volume colossal de ce corpus. Ce corpus regroupe toute l’actualité de tous les rubriques qui le journal le Monde traite. Les données à traiter dans ce corpus sont organisées sous forme d’arborescence. Le but de travail consiste à extraire des patrons morpho-syntaxiques et des graphes tout en ayant préalablement extrait et annoté le contenu textuel qui nous intéressait.

La vie de notre projet passera par plusieurs phases :

Boîte à outil 1 : Le but de cette première étape vise à extraire du texte de la masse de données des titres et descriptions contenus dans les pages xml et txt du corpus.

Boîte à outils 2 : Cette deuxième étape consiste à étiqueter morpho-syntaxiquement les contenus extraits auparavant avec les logiciels Cordial et Treetagger.

Boîte à outil 3 : Dans cette étape je vais extraire les patrons morphosyntaxiques en fonction des différents fichiers qu''on a déjà annotés.

Boîte à outil 4 : La dernière étape a pour but de faire de crééer des graphiques des patrons extraits sous forme de graphes via patron2graphes.