Le projet Boite à Outils a été réalisé dans le cadre du cours Projet Encadré du Master 1 Traitement Automatique des Langues (TAL), dispensé par M. S. Fleury (Paris III) et M. J-M. Daube (INALCO).
Pour ce projet nous allons travailler sur un corpus volumineux; en effet, il s'agit d'une arborescence de fils RSS provenant du journal le Monde, recouvrant la totalité de l'année 2016. Le corpus est disponible ICI
Ce travail sera effectué à l'aide du langage de programmation Perl.
Il s'agit pour ce projet d'extraire des terminologies à l'aide de différents modules de traitement.
Le travail s'organise donc de la manière suivante :
- Trouver et extraire le texte à l'aide d'un script perl et d'expressions régulières.
- Étiqueter le texte. Cette partie sera effectuée de deux manières différentes :
- étiquetage avec treetagger. Cette étape sera intégrée au script principal. Sortie : un fichier XML taggé.
- étiquetage avec Cordial. Cette étape sera effectuée sur le fichier texte extrait en BAO1. Sortie : un fichier texte taggé. - Extraction de patrons morphosyntaxiques sur les 2 types de fichiers taggés.
- Affichage des graphes.
Voici un schéma explicatif de ces 4 étapes qui seront détaillées dans les pages correspondantes (BAO 1 à 4).
Un grand merci à M. S. Fleury et M. J-M. Daube qui nous ont encadrés pour ce projet.
Bonne visite !