Bienvenue au site

Projet « Boîte à Outils (BàO) »

de Xiaoxia ZHANG et Wenfei LI

Présentation &
Descriptif du cours

Bonjour tout le monde. Nous sommes Xiaoxia ZHANG et Wenfei LI, étudiantes en M1 TAL inscrites à Paris III et Paris Nanterre. Nous avons suivi ce cours dans le second semestre de l'année 2019-2020.

Dans ce cours, nous avons travaillé sur la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours pose d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction... comme pour la partie BàO3) et fait appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats... comme ce qu'on a fait dans BàO1 et BàO2).

Allez plus loin...

Objectif

Utiliser le langage perl pour pré-traiter des données et les employer dans le domaine linguistique

Compétences

Langage perl

Connaissances linguistiques

Construction d'un site

RSS

...

Rubrique

Comme il y a beaucoup de rubrique mais le programme est le même, nous sommes suis particulièrement tourné vers les fils des rubriques 3208 « A la une », 3246 « Culture » et 3546 « Voyage ».

Pour le projet BàO 2019-2020, le corpus de travail sera constitué de l'ensemble des 17 fils RSS disponibles sur le site du journal Le Monde recueillis tous les jours de l'année 2019 à 19h.
Chacun des fils est accompagné de sa version « textuelle » (dite profonde) au format Lexico3, mais nous n'arrivons pas à les utiliser directement. Donc il nous faut programmer (ici en perl) pour prétraiter ces données (seulement des fichiers XML pour ce cours) afin de les exploiter (comme la BàO3).

BAO1 « extraction du texte » : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)

BAO2 « étiquetage du texte » : les contenus textuels extraits doivent être étiquetés automatiquement (treetagger et/ou talismane : annotation en morpho-syntaxe et en dépendances)

BAO3 « extraction de patrons » : recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.)

BAO4 « classification automatique » : peut-on attribuer la rubrique associée à un fil RSS au regard du texte qu'il contient ? on essaiera de mettre en oeuvre un processus qui extrait le texte d'un fil puis lui attribue sa rubrique parmi celles disponibles dans le journal (problème a priori très difficile...) (à cause du coronavirus, pas commencé 🤷 ‍)

Remerciement

Ce projet est un projet qui a été fait dans le cadre du cours de Programmation du Projet Encadré 2 dans le second semestre de l’année 2019-2020.

Merci à Monsieur Serge FLEURY (Paris III) et Monsieur Jean-Michel DAUBE (Inalco) pour leur encadrement tout au long de ce projet.