Présentation

Le projet de ce second semestre se nomme "Boîte à Outil" (BàO).

Le corpus de travail se constitue de l'ensemble des fils RSS disponibles sur le site du journal "Le Monde" recueillis tous les jours de l'année 2018 à 19h. Ce projet se divise en quatre parties:

  • BàO1: extraction des contenus textuels des fils RSS de l'arborescence : les contenus des balises title et description.
  • BàO2: étiquetage morphosyntaxique via TreeTagger et Talismane des contenus extrait dans la BàO1.
  • BàO3: extraction de patrons morphosyntaxiques via un script perl, des feuilles de sytle XSLT et XQuery.
  • BàO4: réalisation de graphes à partir des données construites à l'issue de la BàO3.

Nous avons décidé de traîter les rubriques Sports (3242) et Sciences (3244).