Bienvenu sur le site de Projet Encadré 2 : Boites à Outil de HALBOUT Julie. Ce site regroupe les différentes boites à outils construites lors du cours Projet Encadré du M1 TAL.
Ce projet consiste à construire trois boites à outil pour récupérer des données sur des fils RSS du journal "Le Monde". Un graphe avec les données de la boite à outil 3 sera construit afin d'étudier la relation 'obj'.
J'ai choisi trois rubriques pour ce projet : EUROPE - FRANCE - INTERNATIONAL parmi toutes celles disponibles
Nous nous interessons seulement au fichier .xml
"extraction du texte", parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique). Pour faire ces extractions, nous avons utilisé python et perl. Nous avons comme sortie deux types de fichiers par rubrique :
"étiquetage du texte", les contenus textuels extraits doivent être étiquetés automatiquement (Treetagger et UDpipe : annotation en morpho-syntaxe et en dépendances). Nous avons également utilisé python et perl pour cette seconde boite à outil. Nous avons en sortie trois types de fichiers par rubriques
"extraction de patrons" : recherche et extraction de termes et de relation sur les données étiquetées. On cherche ces informations sur chaque rubrique choisie. Nous avons utilisé quatre méthodes : perl, python, xquery et xslt. Les patrons syntaxiques étudiés sont les suivants :
La relation de dépendance étudiée et qui servira à construire le graphe est la relation 'objet'.
Pour réaliser ce projet, j'ai utilisé les logiciels BaseX (pour les requetes Xquery) et oXygen (pour les transformation XSLT et la rédaction en HTML du site). Pour la rédaction des scripts, j'ai utilisé SublimeText pour python et Kate pour perl.