Introduction

Ce site a été réalisé dans le cadre du cours de Programmation et Projet encadré 2, dispensé par Serge Fleury et Jean-Michel Daube, du Master 1 de Traitement Automatique des Langues, cohabilité entre les universités Paris Nanterre et
Paris 3 - Sorbonne Nouvelle, et l'INaLCO.

Les grandes lignes du projet

  • Données traitées

    Le corpus de travail se constitue de l'ensemble des fils RSS disponibles sur le site du journal Le Monde recueillis tous les jours de l'année 2016 à 19h.

  • Boîte à Outils 1

    La BàO 1 parcourt l'arborescence des fils RSS, et récupère le titre et la description de chaque article dans un fichier XML et un fichier texte brut.

  • Boîte à Outils 2

    La BàO 2 produit l'étiquetage morpho-syntaxique des données textuelles obtenues à partir de la BàO 1, via
    Cordial et TreeTagger.

  • Boîte à Outils 3

    La BàO 3 extrait les patrons NOM ADJ et NOM PREP NOM sur les sorties de l'étiquetage issues de la BàO 2.

  • Boîte à Outils 4

    La BàO 4 utilise les patrons trouvés grâce à la BàO 3 pour créer une représentation visuelle des relations entre les mots.

  • Analyse

    Pour finir, une petite analyse des graphes autour des motifs « crise, primaire et attentat » a été réalisée.

Accès aux BàO et aux résultats

À propos

Travail réalisé par Andréa De Sousa.
Contact : andrea.de.sousa.ads[at]gmail.com