Bienvenue !
Ce projet "boites à outils" (BàO) est réalisé dans le cadre du cours de Programmation et Projet Encadré. L'objectif étant de mettre en place une chaîne de traitement textuel semi-automatique qui permet de récupérer l'ensemble des fils RSS du Monde en 2017. Ainsi, nous ferons appel tout au long de ce projet à des différentes méthodes et outils informatiques nécessaires à la récupération du corpus, à la segmentation, à l'étiquetage, à l'extraction, et à la présentation des résultats. Ce projet sera aussi l'occasion de donner une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.
Notre projet comportera 4 BàO:
- L'extraction des titres + descriptions, ainsi que le nettoyage des caractères spéciaux.(BàO1)
- L'étiquetage des fichiers obtenus via le Treetagger (pour les fichiers XML) & via Cordial (pour les fichiers TXT).(BàO2)
- l'extraction des patrons morpho-syntaxiques selon les motifs donnés.(BàO3)
- Et enfin, la visualisation des résultats de l’extraction sous la forme de graphe.(BàO4)
Je tenais à remercier Monsieur S. FLEURY & Monsieur J.M.DAUBE pour les nombreux conseils et aider qu’ils m'ont apporté tout au long de ce semestre car sans eux ce projet n’aurait pas été possible.