Accueil
Présentation
Ce projet a été réalisé en perl dans le cadre du cours de Programmation et Projet Encadré du master d'Ingénierie linguistique de Plurital. Intitulé "Boite à Outils", il était composé de quatre étapes.
- Nous travaillons sur un an de données du Monde recueillies à partir de son flux RSS. Ces données sont donc en XML. Nous commencerons par en extraire le contenu textuel.
- Pour travailler sur ces données, il nous faudra les étiqueter. Nous le ferons à l'aide de deux logiciels que nous comparerons.
- Nous testerons ensuite trois méthodes pour extraire des patrons syntaxiques à partir de ces données.
- Nous pourrons enfin visualiser le résultat de cette extraction sous forme de graphe à l'aide d'un logiciel que nous découvrirons en dernière partie.
Modules perl, script d'extraction de texte, de reconnaissance de patron syntaxique, étiquetage : nous avons ainsi commencé à constituer notre petite boite à outil de l'ingénieur linguiste.