Présentation du cours
Au cours du 2ème semestre, nous avons mis en oeuvre une chaîne de traitement semi-automatique sur des données récupérées depuis les fils RSS du Monde de l'année 2018.
Le but principal du projet et d'apprendre à travailler sur les données aux formats XML: extraire des terminologies et d'analyser des données des différentes rubriques.
Le corpus de travail représente une arborescence de fils RSS du Monde, qui contient les fichiers de tous les mois de l'année dans lesquels il y a des fichiers pour chaque jour du mois. Chaque rubrique a son propre identifiant.
Pour ce projet, les rubriques: 3214 (Europe), 3246 (Culture) et 3208 (à la Une) (en Python) et les rubriques 3210 (International) et 3224 (France) ont été traîtées.
La chaîne de traitement consiste en 4 boîtes à outils:
BaO1: l'extraction des contenus textuels des balises 'title' et 'description' ainsi que le nettoyage des fichiers;
BaO2: l'étiquetage des données obtenues à l'étape de BaO1 par TreeTagger et Talismane;
BaO3: l'extraction de patrons morphosyntaxiques dans les étiquetages produits par Talismane;
BaO4: visualisation en graphes des cooccurrences des motifs obtenus par BaO3.
L'ensemble du projet peut être représenté par le schéma: