Description



La boîte à outils, qu'est-ce que c'est ?




Le projet est réalisé dans le cadre d'un cours mis en place pour les étudiants du Master 1 "Traitement Automatique des Langues" assuré par M. Serge Fleury ( enseignat à la Sorbonne Nouvelle), et M. Jean-Michel Daube ( enseignant à L'Inalco).

" Le projet boîte à outils" consiste en "la mise-en-oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur représentation".

Notre corpus du travail sera une arborescence des fils de RSS du journal "Le Monde" de l'année 2018, recueillis chaque jour à 19:00.





Pour ce travail, nous avons décidé de traiter deux rubriques:

=> 'À la une' (sauvegardée sous le nom '3208')

=> 'International' (sauvegardée sous le nom '3210')

Cette succession de chiffre représente l'identifiant de chaque rubrique, et les fichiers des fils RSS le portent comme le nom de leur alias.


Pour la réalisation de ce projet nous avons utilisé le langage de programmation Perl.

Le travail est constitué de 4 grandes étapes :

=> BàO1 : extraction du texte à partir des flux RSS

=> BàO2 : étiquetage morpho-syntaxique de ce texte

=> BàO3 : extraction de patrons morpho-syntaxiques des fichiers étiquetés

=> BàO4 : représentation graphique des patrons en cours

Les étapes sont décrites dans notre blog de travail :