Le Projet Boîtes à Outils

Dans le cadre du cours Projet Encadré 2, nous réalisons le projet Boîtes à Outils qui vise à mettre en place une chaîne de traitement textuel semi-automatique. Le corpus utilisé par ce projet est composé des fils RSS du journal Le Monde de l'année 2021 organisés dans des fichiers XML respectant une arborescence stricte qui nous guidera pour l'extraction des informations utiles à ce projet. L'objectif du projet étant, à terme, de récupérer et d'analyser le contenu du corpus. Le projet est majoritairement implémenté en PERL qui est très utile pour le traitement des données textuelles de par sa proximité avec les expressions régulière (dont il est à l'origine). En paralèlle nous présenterons une version équivalente en Python. Nous serons également amenés à utiliser les outils permettant d'analyser les fichiers XML comme XQuery et XSLT.

Boîte à Outils

BAO 1 - Extraire

Notre première boîte à outils est implémentée dans le but d'extraire, sous forme de fichier XML, le fil RSS. Pour extraire le contenu du fil RSS, nous devons traiter l'ensemble des fichiers de l'arborescence de l'archive fournie dans le cadre du projet. Le texte est ensuite nettoyé grâce aux expressions régulières. Nous devons également ajouter des balises adaptée pour que le fichier soit un document XML valide et bien formé.

BAO 2 - Etiqueter

Ce texte récupéré grâce à la première boîte à outils est ensuite analysé par plusieurs scripts qui permettent de l'étiquetter automatiquement. L'étiquetage est effectué grâce à deux étiqueteurs automatiques : Treetagger et UDPipe. Les annotations sont ajoutées au fichier XML en ajoutant des balises qui spécifient le type des informations.

BAO 3 - Extraire des patrons

Avec la troisème Boîte à Outils, On cherche à extraire des patrons Morphosyntaxiques du texte extrait par la BAO1 et étiqueté par la BAO2. Plusieurs solutions sont envisagées : PERL, XSLT , XQUERY et Python. Le résultat en de la solution en XSLT/XQUERY est disponible sur le site produit dans le cadre du cours Documents Structurés. On ne présentera ici que les solutions Perl et Python.

BAO 4 - Du texte au graphe

Cette année, nous visionnons les relations extraites du corpus à l'aide de la BAO3 avec l'outil mis en place par Pierre Magistry : padagraph.io

Projet réalisé par Eve Sauvage

En première année de Master Traitement Automatique des Langues

Get in touch