Sample image

Bienvenue !

Ce projet "boites à outils" (BàO) est réalisé dans le cadre du cours de Programmation et Projet Encadré. L'objectif étant de mettre en place une chaîne de traitement textuel semi-automatique qui permet de récupérer l'ensemble des fils RSS du Monde en 2017. Ainsi, nous ferons appel tout au long de ce projet à des différentes méthodes et outils informatiques nécessaires à la récupération du corpus, à la segmentation, à l'étiquetage, à l'extraction, et à la présentation des résultats. Ce projet sera aussi l'occasion de donner une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.

Notre projet comportera 4 BàO:

  1. L'extraction des titres + descriptions, ainsi que le nettoyage des caractères spéciaux.(BàO1)
  2. L'étiquetage des fichiers obtenus via le Treetagger (pour les fichiers XML) & via Cordial (pour les fichiers TXT).(BàO2)
  3. l'extraction des patrons morpho-syntaxiques selon les motifs donnés.(BàO3)
  4. Et enfin, la visualisation des résultats de l’extraction sous la forme de graphe.(BàO4)

Je tenais à remercier Monsieur S. FLEURY & Monsieur J.M.DAUBE pour les nombreux conseils et aider qu’ils m'ont apporté tout au long de ce semestre car sans eux ce projet n’aurait pas été possible.

Je vous souhaite une bonne visite !!!