PROJET ENCADRE

Traitement Automatique des Langues

PRESENTATION DU PROJET

Dans ce projet nous avons mis en oeuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Le projet consistait en traiter des fichiers RSS du journal Le Monde : extraire des informations visées, les annoter et extraire des patrons morpho-syntaxiques. Le but de ce projet est d'apprendre un langage de programmation, Perl ou Python en réalisant une suite de traitements de données divisée en plusieurs étapes. Chaque étape correspond à une "boîte à outils", celles-ci réalisent des tâches bien précises. Les outils informatiques utilisés pour faire ce projet sont Perl , Python, XSLT, le Trameur.

BOITES A OUTILS

Chaque BAO est une étape différente.



BAO 1

Extraction du texte



BAO 2

Etiquetage du texte



BAO 3

Extraction de patrons

CREATION DU SITE

Les résultats de ce projet doivent être présentés dans un site web. Le site doit être écrit en XSLT et XML. XSL signifie eXtensible Stylesheet Langage, ou langage extensible de feuille de style. Nous avons incorporé le langage de balisage HTML et le langage de mise en forme CSS afin de créer un site dynamique et plus moderne.

LES DIFFERENTS OUTILS

Dans chacune des étapes nous avons utilisé des langages de programmation et des outils différents. Nous expliquerons avec plus de détails ces différentes étapes. Cliquez sur une des Boîtes à outils pour y accéder.