Accueil

Présentation

Ce projet a été réalisé en perl dans le cadre du cours de Programmation et Projet Encadré du master d'Ingénierie linguistique de Plurital. Intitulé "Boite à Outils", il était composé de quatre étapes.

  1. Nous travaillons sur un an de données du Monde recueillies à partir de son flux RSS. Ces données sont donc en XML. Nous commencerons par en extraire le contenu textuel.
  2. Pour travailler sur ces données, il nous faudra les étiqueter. Nous le ferons à l'aide de deux logiciels que nous comparerons.
  3. Nous testerons ensuite trois méthodes pour extraire des patrons syntaxiques à partir de ces données.
  4. Nous pourrons enfin visualiser le résultat de cette extraction sous forme de graphe à l'aide d'un logiciel que nous découvrirons en dernière partie.

Modules perl, script d'extraction de texte, de reconnaissance de patron syntaxique, étiquetage : nous avons ainsi commencé à constituer notre petite boite à outil de l'ingénieur linguiste.