Présentation

Co-habilité par l’Inalco, l’Université Paris Nanterre et l’Université Sorbonne Nouvelle, le master Traitement Automatique des Langues (TAL) propose le cours Projet Encadré 2 Boîte à Outils, à la suite de Projet Encadré 1 au deuxième semestre, assuré par M. Serge FLEURY et M. Jean-Michel DAUBE.

Le projet Boîte à Outils (BàO) consiste à la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Les boîtes à outils font appel aux méthodes informatiques nécessaires à leur réalisation, comme récupérer de corpus, segmenter, étiqueter des textes, etc. Elles permettent principalement de(d') :

- extraire des textes : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils RSS ⇒ BàO 1
- étiqueter des textes : étiqueter automatiquement les contenus textuels extraits grâce au Treetagger et au Talismane, les annotateurs en morpho-syntaxe et en dépendances syntaxiques ⇒ BàO 2
- extraire des patrons : rechercher et extraire des termes sur les données étiquetées (les séquences NOM-PREP-NOM-PREP, NOM-ADJ, etc) ⇒ BàO 3

Principe

Données

Le standard RSS (« Really Simple Syndication ») représente un moyen simple d’être tenu informé des nouveaux contenus d’un site web, son format permet ainsi de décrire de façon synthétique le contenu d’un site web dans un fichier XML. Les fils RSS sont des flux de contenus issus des sites Internet, ils comportent les titres des articles, des résumés et des liens vers les articles complets à consulter. Dans notre projet encadré, 17 fils RSS archivés sont recueillis une fois par jour (19h00) du journal Le Monde.

Les schémas ci-dessous présentent la répertoire de corpus et les fils RSS avec sa rubrique correspondante. Le graphe se trouvant à gauche montre le chemin de dossier à traiter (avant les fils RSS), dont le format est que: Année/Mois/Jour/Heure, par exemple, 2019/01/01/19-00-00.

Le deuxième schéma explique précisément que chaque rubrique du journal est nommée avec un identifiant quasiment numérique, les chiffres en milieu (après le premier tiret) distinguent les rubriques des autres. Par exemple, « 3214 » représente la rubrique Europe. De plus, chaque rubrique contient principalement deux types de fichiers que le graphe n'a pas pu montrer: les fichiers en format XML et les fichiers TXT. Ces paires de fichiers ont les mêmes informations mais les fichiers TXT ne sont pas strcturés.

Dans les travaux qui suivent, les rubriques International(3210), Société(3224), et Cinéma(3476) seront pris en compte.


schema1 schema2