BAO

Ce projet est une mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Le travail concerne la récupération de corpus, la normalisation des textes, la segmentation, l'étiquetage, l'extraction, la structuration et la présentation des résultats... En détail, on va partir d'une arborescence de fils RSS du journal Le Monde, recueillis en format xml tous les jours de l'année 2017 à 19h. Chaque rubrique de ce journal a un segment distinct dans leur nom du fichier qui pourra nous servir à les classer. 1. Notre première étape est d'extraire parmi toutes les informations sous xml le titre et la description de chaque article, dont les fichier de sortie est en même temps un TXT et un XML. 2. Ensuite on va utiliser des POS Taggers pour faire la segmentation et l'étiquetage.On essaye de comparer la performance des outils différents dans cette étape. 3. À l'étape suivante, on va extraire des patrons syntaxiques de façons différentes et comparer les résultats. 4. Dernière étape, on aura la représentation graphique. J'ai choisi les trois rubriques:"3210"--"Internationale", "3214"--"Europe", "3224"--"France". Et après avoir les résultats, on peut étudier les termes utilisés dans les trois rubriques différentes et aussi la collocation des mots dans la piste de sociolinguistique.

Project BAO