Bienvenue dans mon site pour le cours de programmation et projet encadré n°2

L'objectif de ce cours est la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, de la récupération de données jusqu'à leur présentation.

  • La première boite à outils permettra l'extraction sous format .txt et .xml, à partir de fils RSS collectés, de titres et descriptions d'articles du journal Le Monde parus en 2016 pour une rubrique donnée.
  • Nous étiquetterons ensuite en parts of speech (parties du discours) les données obtenues grâce à la deuxième boite à outils.
  • Avec la troisième boite à outils, nous extrairons des patrons morpho-syntaxiques à partir des fichiers étiquetés précédemment .
  • Pour finir, la quatrième boite à outils nous permettra de présenter et d'évaluer nos résultats sous forme de graphique.

Outils utilisés

Pour ce projet, nous avons utilisé les outils informatiques suivants:

  • le langage de programmation perl
  • les programmes d'étiquetage morpho-syntaxique cordial et TreeTager.
  • le programme patron2graphe.exe.