Bienvenue

Ce site présente les travaux réalisés dans le cadre de notre Master de Traitement Automatique des Langues, co-habilité par les universités de Paris 3, Paris 10 et l'Inalco, décrit ici.

Dans le cours Boîte à Outils nous sommes amenés à mettre en oeuvre des outils et méthodes informatiques et linguistiques pour :
- récupérer un corpus
- normaliser des textes
- les segmenter
- les étiqueter syntaxiquement
- et enfin, extraire, structurer et présenter les résultats.

Example pic

Les étapes : BàO1 à BàO4

Le projet s'articule en 4 étapes principales :
- Ecriture de programmes pour extraire des données de sites Internet
- Etiquetage morpho-syntaxique du corpus avec deux outils différents
- Ecriture de programmes pour extraire des patrons
- Représentation des données textuelles par des graphes

Example pic

Outils

La réalisation du projet nous a permis de prendre en main des outils indispensables au traitement automatique des langues tels que :
- Un module Perl spécialisé dans le scraping de fils RSS : XML::RSS
- Les étiqueteurs morpho-syntaxiques Cordial et TreeTagger
- Un module Perl destiné à traiter les fichiers au format XML : XML::XPath
- Un outil de représentation graphique des données textuelles : patron2graphe.


Page suivante  →