Sample image

Bienvenu sur notre site !

Ce projet est réalisé dans le cadre du cours de Programmation et Projet Encadré du Master d'Ingénierie linguistique, Semestre 2. Il porte le nom Boite à Outils (BAO), les scripts sont écrits en Perl. Notre projet comprend 4 étapes :

  1. La première étape consiste d'extraire le contenu textuel et au format XML à partir du corpus de test de 2008 dont les données sont originalement en XML.
  2. Nous travaillons sur de données du fils RSS du journal Le Monde collectés pendant l'année 2013. Pour faciliter le travail sur les données, il faut les étiqueter. Cette étape consiste d'extraire des données textuelles et le contenu au format XML pour effectuer leur étiquetage morphosyntaxique via le Treetagger.
  3. Nous faisons l’étiquetage morphosyntaxique à l'aide de logiciel Cordial. Nous faisons l’extraction des patrons selon les motifs à partir de ces données.
  4. Les étapes précédentes nous permettent de visualiser le résultat de l’extraction sous la forme de graphe à l'aide d'un fichier exécutif patron2graphe.exe.

Juste pour les informations, on donne une définition de fils RSS. Un fils RSS est un flux de fichiers au format XML qui permet d’avoir accès à au contenu d'un site sans se rendre sur les pages web du site même. Les pages web généralement permet de s’abonner au flux préférés .

Nous tenons à remercier nos enseignants, Monsieur S. FLEURY et Monsieur J.M.DAUBE pour les nombreux conseils qu’ils nous ont apporté en particulier tout au long de l’étape de traitement des données et sans qui ce projet n’aurait pas été possible.