Présentation

Ce projet a été fait dans le cadre du cours de Programmation et Projet encadré 2 assuré par Seurge Fleury et Jean Michel Daube.

BAO1

Perl (filtrage, nettoyage…)

On commence ce projet par la première boîte à outils ou on doit écrire un programme qui parcourt et extrait les contenus textuels des balises TITLE et DESCRIPTION contenues dans les balises ITEM des rubriques de tous les fichiers RSS de l'arborescence 2018

BAO2

Étiquetage morphosyntaxique

Dans cette étape on prend le corpus réalisé en BAO1 qui est constitué de deux fichier textes et deux fichier XML contenant les titre et description des articles des rubriques Culture et Europe et on utilise Tree Tagger est Talismane pour faire l'étiquetage morphosyntaxique du corpus

BAO3

Extraction terminologique

Dans la troisième boîte à outils, on doit construire un programme pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec Talismane on utilise des language de programmation différents PERL, PYTHON, XSLT et XQUERY et on compare les résultats et la durée de procession.

BAO4

Des textes aux Graphes

La dernière étape du projet consiste à l'applique du programme « patron2graphe.exe » sur les données construites à l'issue de la BàO3 pour générer des graphes autour d'un motif.

Conclusion

Description