|
*** PRESENTATION *** Bienvenue! Vous trouverez ici les exercices du cours de Projet encadré réalisés dans le cadre du Master 1 Ingénierie linguistique (Paris 3 / Paris 10 / Inalco).
Les exercices de ce projet se répartissent dans plusieurs Boîtes à Outils (BàO) qui correspondent aux étapes principales de traitement d'un corpus en Perl :
- La BàO 1 consiste à extraire puis à classifier le contenu textuel d'un corpus de fils RSS disponibles sur le site du journal Le Monde en parcourant l'arborescence des fils. - La BàO 2 permet d'étiqueter les données textuelles extraites précédemment à l'aide des outils d'étiquetage morpho-syntaxique Cordial et TreeTagger. - La BàO 3 a pour objectif d'extraire des patrons, autrement dit des motifs syntaxiques, des données ainsi étiquetées.
|