PROJET

Ce projet a été réalisé dans le cadre du cours Projet Encadré dispensé au second semestre au sein du Master de Traitement Automatique des Langues (PLURITAL) co-habilité par l'Université Sorbonne-Nouvelle, l'Université Paris-Nanterre et l'Inalco. Nous avions déjà réalisé un projet encadré au premier semestre. Celui-ci consistait en l'aspiration de pages web pour l'analyse d'un mot en différentes langues et en contexte à l'aide d'outils textométriques. Cette fois, le projet consiste en l'extraction automatique de terminologies trouvées dans les articles publiés en ligne par le journal Le Monde. Pour ce faire, nous avons utilisé différentes BAO en plusieurs langages de programmation.

Remerciements

Un grand "MERCI" à Serge FLEURY et Jean-Michel DAUBE qui nous ont encadré tout au long de ce semestre.

C'est quoi une BAO ?

Une BAO est une boîte à outils permettant de réaliser une tâche. Dans le cadre de ce projet, chaque BAO cristallise une des étapes nécessaire à la réalisation de l'extraction des terminologies de notre corpus. Les BAO présentées sont sous la forme de scripts exploitant le corpus des fils RSS du Monde, et chaque nouvelle BAO réutilise le résultat donné en sortie par les BAO précédentes. Nous avons fait le choix d'utiliser deux langages de programmation pour chaque boîte à outils, vous pourrez ainsi trouver des scripts en Perl et en Python pour chaque étape.

Etape 1 - BAO1

La première étape consiste en la récupération des contenus textuels pertinents que l'on trouve dans les fichiers XML des fils RSS. Cette tâche implique de parcourir l'ensemble des fichiers récoltés jusqu'à trouver les documents XML, et d'y extraire le contenu qui nous intéresse à l'aide d'une expression régulière pour ensuite l'écrire dans un fichier XML qui nous servira pour l'étape suivante. Nous exposons plusieurs manières de procéder en Perl (avec ou sans l'aide du module XML::RSS), et une en Python.

Etape 2 - BAO2

La deuxième étape consiste en l'étiquetage morphosyntaxique du contenu textuel récolté précédemment. Il est possible de procéder manuellement en soumettant le fichier en sortie de la BAO1 au logiciel Cordial, ou bien en utilisant TreeTagger dans un script. Les scripts détaillés en Perl et en Python se servent tous deux de programmes externes pour la tokenisation et la sortie en XML des résultats. Ils étiquettent le texte en tokens, lemmes et parties du discours.

Etape 3 - BAO3

La troisième étape consiste quant à elle en l'extraction des terminologies. Pour cela, nous exposons différentes manières de procéder, aussi bien en Perl qu'en Python, en XQuery et avec une feuille de style XSLT, et dans le cas d'un fichier en entrée étiqueté par Cordial ou bien par TreeTagger.

Etape 4 - BAO4

Pour finir, l'étape finale du projet consiste en la visualisation des liens entre les différentes terminologies, à l'aide des fichiers de terminologies obtenus avec la BAO4.

Les scripts sont tous détaillés, visualisables et téléchargeables dans les sections Perl et Python.