Le Projet

Bonjour et bienvenus sur notre site !

Notre projet à été réalisé dans le cadre du cours « Projet Encadré » - M 1 « TAL » dirigé par M. S. Fleury et M. J.M.Daube.

Boite à Outil, comment faire?

Pour la réalisation du projet nous avons utilisé le langage de programmation « Perl ». Nous allons donc traiter une arborescence de fils RSS du journal « Le monde » (2018). Il s’agit d’un corpus très volumineux et nous avons décidé de travailler avec trois rubriques : 3208, 3210, 3224. Le Projet est constitué de 4 boite à utiles : BAO1, BAO2, BAO3, BAO4. Tout d’abord nous allons extraire le texte de chaque rubrique : tous les titres et les descriptions à l’aide d’un script perl contenant des expressions régulières. Ensuite, pour chaque rubriques nous allons générer deux sorties : une sortie en format « .txt » et une sortie xml. Après cela, nous allons nous amuser avec l’étiquetage : nous allons utiliser deux étiqueteurs : Treetagger et Cordial. Le premier logiciel sera intégré dans le script principal et nous allons donc obtenir un fichier de sortiel XML taggé. Cordial sera utilisé pour étiqueter notre fichier de sortie txt. La troisième étape consistera à extraire des patrons morphosyntaxiques sur les fichiers que nous avons étiqueté. Comme dernières étapes, nous allons afficher des graphes qui résument toute les étapes de notre projet final.