Bonjour tout le monde. Nous sommes Xiaoxia ZHANG et Wenfei LI, étudiantes en M1 TAL inscrites à Paris III et Paris Nanterre. Nous avons suivi ce cours dans le second semestre de l'année 2019-2020.
Dans ce cours, nous avons travaillé sur la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours pose d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction... comme pour la partie BàO3) et fait appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats... comme ce qu'on a fait dans BàO1 et BàO2).
Allez plus loin...Utiliser le langage perl pour pré-traiter des données et les employer dans le domaine linguistique
Langage perl
Connaissances linguistiques
Construction d'un site
RSS
...
Comme il y a beaucoup de rubrique mais le programme est le même, nous sommes suis particulièrement tourné vers les fils des rubriques 3208 « A la une », 3246 « Culture » et 3546 « Voyage ».
Pour le projet BàO 2019-2020, le corpus de travail sera constitué de l'ensemble des 17 fils RSS disponibles sur le site du journal Le Monde recueillis tous les jours de l'année 2019 à 19h.
Chacun des fils est accompagné de sa version « textuelle » (dite profonde) au format Lexico3, mais nous n'arrivons pas à les utiliser directement. Donc il nous faut programmer (ici en perl) pour prétraiter ces données (seulement des fichiers XML pour ce cours) afin de les exploiter (comme la BàO3).
BAO1 « extraction du texte » : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)
BAO2 « étiquetage du texte » : les contenus textuels extraits doivent être étiquetés automatiquement (treetagger et/ou talismane : annotation en morpho-syntaxe et en dépendances)
BAO3 « extraction de patrons » : recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.)
BAO4 « classification automatique » : peut-on attribuer la rubrique associée à un fil RSS au regard du texte qu'il contient ? on essaiera de mettre en oeuvre un processus qui extrait le texte d'un fil puis lui attribue sa rubrique parmi celles disponibles dans le journal (problème a priori très difficile...) (à cause du coronavirus, pas commencé 🤷 )