BIENVENUE

Vous trouverez sur ce site l'ensemble de travail du projet Boîte à Outils réalisé dans le cadre du cours Programmation et Projet Encadré 2 de Master 1 TAL. Ce projet consiste au traitement textuel de l'ensemble des Fils RSS sur le site du journal Le Monde ,récupérés tous les jours de l'année 2020 à 19h.

  • BàO 1 "extraction du texte" : tout d'abord nous allons parcourir toute l'arborescence de Fils RSS 2020 et extraire les contenus textuels de tous les fils.
  • BàO 2 "étiquetage du texte" : à cette étape, nous ferons l'étiquetage morphosyntaxique sur les sorties de BàO 1 avec Treetagger et UDpipe.
  • BàO 3 "extraction de patrons" : nous allons extraire les patrons morphosyntaxiques utilisant 3 solutions différentes(Perl, XSLT et XQuery) avec les sorties de boîte à outils 2.