Boite à outils 2

Étiquettage grâce à treetagger et talismane (nouveau au programme).

Quelques informations avant d'aller plus loin

Le projet

Ceci est un site créé dans le cadre du projet encadré du second semestre de M1 Traitement Automatique des Langues.

Nous avions déjà réalisé un projet au premier semestre (voir ici ) sur la perception du viol dans la presse-web. Au niveau technique, il s'agissait d'utiliser les languages bash et python pour aspirer des pages en plusieurs langues, traiter les problèmes d'encodage, puis extraire et analyser des motifs.

Dans celui-ci, il s'agira, comme mentionné dans la page du cours, de :

Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, de la récupération des données à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.`

Les données

Nos données consisteront en fils RSS issus du journal Le Monde. Les fils ont été récupérés par les soins du Pr Fleury en grande partie, grâce à un script bash et perl, activé par cron chaque jour de l'année 2018, à 19h.

Ainsi, il a mis à notre disposition un dossier contenant pour chaque jour de l'année les 17 fils d'actualité du journal (/img/).

Un dossier contenant les fils d'une année constitue une arborescence organisée de la façon suivante :

Nous avons décidé, en tant que groupe de nous concentrer sur trois fils :

  • Technologie : 0,2-651865,1-0,0
  • Livre : 0,2-3260,1-0,0
  • Entreprises : 0,2-3234,1-0,0
Pour atteindre notre objectif, nous allons utiliser différentes BAO.

Quelques définitions

Bao : Boite à outils

Chaque boîte à outils représente une étape de notre chaîne de traitement.
Elles seront présentées en détails dans leur partie respective.

Fil RSS

Fichier XML généré automatiquement qui rend compte des mises à jour d'un site web. Sa structure respecte une convention, ce qui lui permet d'être diffusé et lu par le plus grand nombre. Il permet aux utilisateurs qui s'y abonnent d'être facilement tenu au courant des nouveautés sur un site, en recevant un mail par exemple.

Patron

Motif morpho-syntaxique donné par l'utilisateur en entrée de la BaO3. Ex : "NC ADJ" (Un nom commun suivi d'un adjectif)

Sandy Duchemin

M1 TAL (Paris 10)

Mail

Ousseynou Gueye

M1 TAL (INALCO)

Mail