Présentation du projet "Boîte à Outils"

Le projet Boite à Outils a été réalisé dans le cadre du cours Projet Encadré du Master 1 Traitement Automatique des Langues (TAL), dispensé par M. S. Fleury (Paris III) et M. J-M. Daube (INALCO).

Pour ce projet nous allons travailler sur un corpus volumineux; en effet, il s'agit d'une arborescence de fils RSS provenant du journal le Monde, recouvrant la totalité de l'année 2016. Le corpus est disponible ICI

Ce travail sera effectué à l'aide du langage de programmation Perl.
Il s'agit pour ce projet d'extraire des terminologies à l'aide de différents modules de traitement.
Le travail s'organise donc de la manière suivante :

  1. Trouver et extraire le texte à l'aide d'un script perl et d'expressions régulières.
  2. Étiqueter le texte. Cette partie sera effectuée de deux manières différentes :
    - étiquetage avec treetagger. Cette étape sera intégrée au script principal. Sortie : un fichier XML taggé.
    - étiquetage avec Cordial. Cette étape sera effectuée sur le fichier texte extrait en BAO1. Sortie : un fichier texte taggé.
  3. Extraction de patrons morphosyntaxiques sur les 2 types de fichiers taggés.
  4. Affichage des graphes.

Voici un schéma explicatif de ces 4 étapes qui seront détaillées dans les pages correspondantes (BAO 1 à 4).

Un grand merci à M. S. Fleury et M. J-M. Daube qui nous ont encadrés pour ce projet.

Bonne visite !