Projet encadré 2
PRéSENTATION


Boite à outils


Bienvenue sur Boite à Outils. Nous sommes Abdenour BARECHE et Neda LESTAREVIC.

Le Projet Boite à Outils (BàO) a été réalisé dans le cadre du cours Projet Encadré 2 du master 1 TAL (INALCO, Paris 3 et Paris 10), encadré par M. S. Fleury et M. Jean Michel Daube.
Pour ce projet, nous allons travailler sur les fils RSS du journal Le Monde de l'année 2016, collectés par M. S. Fleury.

I-L'extraction du contenu textuel de ces fils RSS se fera par un script perl (BàO 1).

Nous avons choisi de travailler sur deux rubriques de ce journal: International et Social.

L'étiquetage morpho-syntaxique du texte extrait se fera en deux temps: (BàO 2)
1-étiquetage par TreeTagger, on aura en sortie un fichier XML.
2-étiquetage par Cordial, on aura en sortie un fichier txt.

II-l'extraction des patrons morphosyntaxiques (BàO 3):
Nous avons décidé d'extraire des patrons morphosyntaxiques qui contiennent Nom Commun et Adjectif (NC et ADJ).
Nous allons réaliser l'extraction des patrons sur :
1- L'étiquetage réaliser avec Cordial. L'extraction des patrons sur le fichier Cordial s'effectuera par un script perl.
2- l'étiquetage réaliser avec TreeTagger. L'extraction des patrons sur le fichier XML s'effectuera avec XPATH.

III- Création de graphes avec le programme patron2graphe.