Introduction

Le but de ce travail est d'extraire et d'analyser des données extraites à partir d'un fil RSS extrait de journal "Le Monde" lors de l'année 2011. Pour ce faire, vous pouvez le récupérer ici : Archive 2011.

Cet extrait va être ensuite étiqueté pour obtenir des patrons syntaxiques pour ainsi donner un arbre avec les mots à l'intérieur des fils RSS.

Etapes du travail

Pour réaliser ce travai, lors du cours, nous avons établi différentes étapes qui nous aiderons obtenir au final la réalisation graphique des mots

1) Extraction des fils RSS

  • Cette première étape consiste au développement d'un script perl qui nous permettra d'extraire, de classifier et de nettoyer les fils RSS. Pour ce faire, nous avons dû comprendre l'organisation du fil RSS :

  • On peut voir alors que ceux-ci sont organisés par année, par mois, ensuite par jour et finalement l'heure à laquelle le corpus a été pris, c'est-à-dire, 19H.

2) Accorder des étiquettes

  • Cette partie consiste tout simplement à se servir des outils comme Cordial ou encore Treetagger pour réaliser un étiquettage morpho-syntaxique de chaque mot extrait par le script perl.

3) Patrons syntaxiques

  • Nous allons nous servir du résultat de la boite à outils N°2 pour réaliser une extraction terminologique en filtrant les patrons syntaxiques.

4) Graphes des mots

  • Afin d'obtenir des graphes des mots, nous allons nous servir du programme "patron2graphe.exe" pour l'obtenir.

Contact

Lien outils

  • TAL PARIS 3
    Site où vous pouvez tout savoir sur le Traitement Automatique des Langues à la Sorbonne-Nouvelle
  • ATALA
    Association pour le Traitement Automatique des Langues
  • PluriTAL
    Site du master Ingénierie Linguistique

Travaux précedents