Projet encadré

Mise en œuvre d'une chaîne de traitement textuel semi-automatique,
depuis la récupération des données jusqu'à leur présentation.

Introduction

Le cours de Projet encadrée posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.


Le projet des boites à outils a été réalisé dans le cadre du cours de Projet encadré du Master de Traitement automatique des langues. Le but de ce projet est d'extraire le titre et la description de deux rubriques du journal Le Monde sur l'année 2021, ici les rubriques idée et Cinéma. Puis nous allons les étiqueter afin d'en extraire divers patrons. Pour finir, nous allons faire une représentation graphique des listes produites des patrons extraits


Il y aura donc trois boites à outil :

  • BAO 1 : extraction du texte
  • BAO 2 : étiquetage du texte
  • BAO 3 : extraction de patrons


Les programmes sont écrits en Perl et Python

_________________________________________________________________________________________

_________________________________________________________________________________________

_________________________________________________________________________________________

_________________________________________________________________________________________

Contact

Email Me

kenza.piter@gmail.com