Programmation & Projet Encadré 2

Boites à Outils

Ce site web est le résultat du projet Boîte à Outils (BAO), effectué dans le cadre du cours "Programmation et Projet encadré 2", dispensé lors du deuxième semestre du Master 1 en Traitement Automatique des Langues (TAL). Cette formation est délivrée conjointement par l'Université Paris Nanterre, l'Université Paris 3 Sorbonne Nouvelle et l'Institution national des langues et civilisations orientales (INALCO).

Ce cours nous a permis de mettre en œuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats).

Le corpus de travail est composé de l'ensemble des fils RSS du journal Le Monde recueillis tous les jours de l'année 2019. Ce projet se divise en 3 étapes :
- BAO1 : extraire les contenus textuels de tous les fils RSS de l'arborescence : les contenus des balise titre et description
- BAO2 : Etiqueter morphosyntaxiquement les contenus extraits dans la BAO1 avec TreeTagger et Talismane
- BAO3 : Extraire des patrons morphosyntaxique dans les sorties produites à l'issue de la BAO2