Bienvenue sur notre site !


Vous trouverez dans ces pages notre travail effectué dans le cadre du projet encadré du Master 1 Ingénierie Linguistique. Il s’agit de la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation.

Pour ce faire nous avons utilisé comme corpus les fils rss des archives 2011 du journal « Le Monde », puis nous lui avons fait subir plusieurs traitements à savoir l’extraction pour le cluster, l‘étiquetage, puis l’extraction de patron syntaxique.

Nous avons donc utilisé perl avec différents scripts de filtrage et nettoyage, ainsi que des outils nécessaires au traitement tels que treetagger ou cordial.

Boite à outils 1 :

Il s’agit avant tout d’extraire les informations que nous jugeons pertinentes et de les classer. En conséquent, le script détecte les titres de toute l’archive et regroupe le contenu de chaque rubrique traitée.

Le script nous fournit deux sorties : texte brut et xml.



Boite à outils 2 :

Il s’agit de produire un étiquetage des données textuelles extraites dans l'arborescence des fils RSS du Monde en suivant 2 parcours : treetagger et cordial.

Treetagger et cordial sont des outils d’annotation permettant d’afficher un mot, son lemme ainsi que sa catégorie syntaxique (Part-Of-Speech tag).



Boite à outils 3 :

L’étiquetage syntaxique réalisé précédemment permet de récupérer ici les patrons syntaxiques que l’on désire, par exemple toutes les suites de nom suivi d’un adjectif.



Pour consulter les scripts détaillés, ainsi que les entrées et sorties, veuillez lire les pages qui suivent!



Voici les démarches effectuées dans notre projet: