Accueil BaO1 BaO2 BaO3 BaO4

PROJET BOITE A OUTILS

Le site final réalisé par
Natalia Kalashnikova (Paris 3)

Présentation du cours

Au cours du 2ème semestre, nous avons mis en oeuvre une chaîne de traitement semi-automatique sur des données récupérées depuis les fils RSS du Monde de l'année 2018. Le but principal du projet et d'apprendre à travailler sur les données aux formats XML: extraire des terminologies et d'analyser des données des différentes rubriques.
Le corpus de travail représente une arborescence de fils RSS du Monde, qui contient les fichiers de tous les mois de l'année dans lesquels il y a des fichiers pour chaque jour du mois. Chaque rubrique a son propre identifiant. Pour ce projet, les rubriques: 3214 (Europe), 3246 (Culture) et 3208 (à la Une) (en Python) et les rubriques 3210 (International) et 3224 (France) ont été traîtées.
La chaîne de traitement consiste en 4 boîtes à outils:

  • BaO1: l'extraction des contenus textuels des balises 'title' et 'description' ainsi que le nettoyage des fichiers;

  • BaO2: l'étiquetage des données obtenues à l'étape de BaO1 par TreeTagger et Talismane;

  • BaO3: l'extraction de patrons morphosyntaxiques dans les étiquetages produits par Talismane;

  • BaO4: visualisation en graphes des cooccurrences des motifs obtenus par BaO3.

  • L'ensemble du projet peut être représenté par le schéma:

    Présentation du projet

    Ce projet a été pour moi l'occasion de tester mes connaissances acquises au cours de la 1ère année de ce master en Python. Pour trouver les indices sur les solutions du traitement des données que je n'ai pas vu j'ai principalement utilisé ce site.
    Ce site accueille donc le projet sur les boîtes à outils réalisées en Perl et en Python ainsi qu'une analyse linguistique sur les données obtenues.