Master TAL - Programmation et projet encadré 2

Paris 3 - Paris 10 - Inalco

Une manière amusante de présenter notre projet

Tapez 'help' + Enter -- pour les commandes possibles sur le prompt.

---- BaO1 ----

La boîte à outils 1 (BàO 1) nous permet de réaliser une sorte d'extraction d'information concernant les contenus textuels de flux RSS.

On récupere les contenus des fichiers RSS de notre corpus.

Ensuite, on structure nos données en mettant dans deux fichiers différents : un fichier texte brut et un fichier XML.

Attendez un petit instant pour voir les détails..

(un lien va s'afficher)

Open BaO1

---- BaO2 ----

Le but de la boîte à outils 2 (BàO 2) c'est de pouvoir étiqueter les données extraites par la BàO1

Pour cela, on va intégrer dans notre script deux programmes externes qui sont "Treetagger" et "Talismane"

Attendez un petit instant pour voir les détails..

(un lien va s'afficher)

Open BaO2

---- BaO3 ----

La boîte à outils 3 se base sur les résultats de la BaO2.

Avec celle-ci, on a pour but d'extraire les patrons que l'on souhaite. On s'appuie sur les sorties TALISMANE et Treetagger

Attendez un petit instant pour voir les détails..

(un lien va s'afficher)

Open BaO3

---- BaO4 ----

La boîte à outils 4 s'appuie sur les résultats obtenus par la BàO3.

Pour celle-ci on utilise un programme fourni par Serge Fleury

Attendez un petit instant pour voir les détails..

(un lien va s'afficher)

Open BaO4

»Projet

Ce projet a été réalisé dans le cadre d'un cours intitulé "Programmation et projet encadré 2" au sein du master Traitement automatique des langues à Paris3/Paris10/Inalco.( Master PluriTAL )

Le projet consiste en l'extraction semi-automatique des terminologies. Pour plus de details, tapez donnee + Enter

Pour ce faire, on a utilisé différentes BAO en plusieurs langues de programmation. Vous trouverez des details pour chaque BAO dans les pages associées aux BAO.

Pour ce projet, on tient à remercier à Serge Fleury et Jean-Michel Daube pour l'encadrement et toute l'aide qu'ils nous ont apportée.

»Données

Les données utilisées pour ce travail sont issues des fils RSS du journal Le Monde. Celles-ci sont constitués de tous les flux RSS mis en ligne par le journal afin de signaler aux lecteurs les mises à jour des articles sur leur plateforme de publication en ligne. Un flux RSS est notamment représenté par un fichier XML dont le contenu est produit automatiquement (sauf cas exceptionnels) en fonction des mises à jour d’un site Web.

Vous pouvez aller consulter les fichiers RSS ici !

»Conclusion

Ce travail, avant tout, il nous a permis de découvrir le langage Perl et de nous familiariser avec. En même temps, il faudrait souligner que comme on a pu travailler aussi en Python, cela nous a apporté également beaucoup de choses.

Nous avons pu voir surtout l'importance des données "bien structurées". Cela nous a permis de voir à quel point ça facilite le travail !

Nous tenons à remercier encore une fois à Serge Fleury et à Jean-Michel Daube pour ce projet enrichissant et pour l'encadrement et toute l'aide qu'ils nous ont apportée.

Alican - Oussama

Command not found!

Tapez 'help' + Enter -- pour les commandes possibles sur le prompt.

»Help?

Type [command] + Enter

alican_oussama:/$