Projet encadré

Perl, XML/XSL et autres

Un projet de M1

Ceci est un projet effectué dans le cadre de la première année de master de Traitement Automatique des Langues, sous la direction des professeurs S. Fleury et J.-M. Daube à Paris 3.

Ici est le site officiel du master, qui est le fruit d'un partenariat entre les établissements de Paris 3, Paris 10, et l'INALCO.

Free HTML5 by FreeHTML5.co

Le projet en quelques mots

L'idée du projet est de partir des fichiers d'un fil RSS du monde (ici, tous les fichiers de l'année 2017), puis d'en extraire les titres et descriptions dans des fichiers XML et texte grâce à un (ou plusieurs) programmes dans le langage Perl. C'est la BAO1.

Ensuite, on annotera ces textes de deux manières différentes, utilisant soit encore une fois un programme perl, soit un programme à part nommé Cordial. C'est la BAO2.

Puis, nous essaierons d'extraire divers patrons morphosyntaxiques (type nom-verbe, adjectif-adverbe, etc) grâce à plusieurs méthodes différentes à partir des fichiers générés précédemment. C'est la BAO3.

Enfin, nous mettrons ces patrons extraits sous forme de graphes, afin de fournir des données plus faciles à analyser.