PRÉSENTATION
Le projet de ce semestre tourne autour le langage Perl.
Nous allons utiliser des programmes donnés par nos professeurs et bien sûr codés en Perl.
Nous allons plus au moins modifier ces programmes afin d’arriver à faire les manipulations et
les opérations dont les programmes sont conçus pour. Le corpus sur le quel je suis initié à travailler
sera un corpus composé de tous les fils RSS du journal Le monde de l’année 2016. Je vous laisse alors
imaginer le volume colossal de ce corpus. Ce corpus regroupe toute l’actualité de tous les rubriques qui
le journal le Monde traite. Les données à traiter dans ce corpus sont organisées sous forme d’arborescence.
Le but de travail consiste à extraire des patrons morpho-syntaxiques et des graphes tout en ayant préalablement
extrait et annoté le contenu textuel qui nous intéressait.
La vie de notre projet passera par plusieurs phases :
Boîte à outil 1 :
Le but de cette première étape vise à extraire du texte de la masse de données des titres et descriptions contenus dans les pages xml et txt du corpus.
Boîte à outils 2 :
Cette deuxième étape consiste à étiqueter morpho-syntaxiquement les contenus extraits auparavant avec les logiciels Cordial et Treetagger.
Boîte à outil 3 :
Dans cette étape je vais extraire les patrons morphosyntaxiques en fonction des différents fichiers qu''on a déjà annotés.
Boîte à outil 4 :
La dernière étape a pour but de faire de crééer des graphiques des patrons extraits sous forme de graphes via patron2graphes.