Bienvenue

Descriptif projet bao

Le projet

Ce site web présente le résultat du cours « Programmation et Projet encadré II », réalisé dans le cadre du Master 1 PluriTAL, co-habilité par les trois universités de l´Inalco, Paris III Sorbonne Nouvelle et Paris Ouest Nanterre-La Défense, et assuré par Serge FLEURY et Jean-Michel DAUBE.

Dans le cours du Projet Encadré du deuxième semestre, on a mis en ouvre le projet Boîte à Outils, qui implique l´utilisation des outils et méthodes informatiques et linguistiques qui comportent la récupération de corpus, la normalisation des textes, leur segmentation, leur étiquetage syntaxique et, finalement, l´extraction et structuration des résultats obtenus.

Descriptif projet bao


Descriptif du cours

Mise en oeuvre d´une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu´à leur présentation. Ce cours pose la question des objectifs linguistiques à atteindre et fait appel aux méthodes et outils informatiques nécessaires pour leur réalisation : récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...À la fin, on fera aussi une évaluation des résultats obtenus.

Le principal objectif de notre projet est d´extraire des patrons morphosyntaxiques à partir d´une base des flux RSS du journal « Le Monde » de l´année 2017 et d´utiliser ces patrons pour créer des graphes. L´extraction s´effectue en plusieurs étapes et, en dernier lieu, on réalisera des graphes avec les données resultants.

Les étapes

BàO 1

Extraction des données textuelles de sites d´Internet

Lire la suite
BàO 2

Étiquetage morphosyntaxique du corpus

Lire la suite
BàO 3

Extraction de patrons morphosyntaxiques

Lire la suite
BàO 4

Extraction de patrons morphosyntaxiques

Lire la suite