Bienvenue
Ce site présente les travaux réalisés dans le cadre de notre Master de Traitement Automatique des Langues, co-habilité par les universités de Paris 3, Paris 10 et l'Inalco, décrit ici. Dans le cours Boîte à Outils nous sommes amenés à mettre en oeuvre des outils et méthodes informatiques et linguistiques pour :- récupérer un corpus
- normaliser des textes
- les segmenter
- les étiqueter syntaxiquement
- et enfin, extraire, structurer et présenter les résultats.
Les étapes : BàO1 à BàO4
Le projet s'articule en 4 étapes principales :- Ecriture de programmes pour extraire des données de sites Internet
- Etiquetage morpho-syntaxique du corpus avec deux outils différents
- Ecriture de programmes pour extraire des patrons
- Représentation des données textuelles par des graphes
Outils
La réalisation du projet nous a permis de prendre en main des outils indispensables au traitement automatique des langues tels que :- Un module Perl spécialisé dans le scraping de fils RSS : XML::RSS
- Les étiqueteurs morpho-syntaxiques Cordial et TreeTagger
- Un module Perl destiné à traiter les fichiers au format XML : XML::XPath
- Un outil de représentation graphique des données textuelles : patron2graphe.