Le Projet
Les travaux présentés sur ce site ont été réalisés dans le cadre du cours de Programmation et Projet Encadré 2 dispensé par Serge Fleury, Jean-Michel Daube et Rachid Belmouhoud dans le cadre du master TAL à Paris 3.
L'objectif de ce cours est d'introduire la programmation Perl et l'utilisation qu'on peut en faire dans le TAL. Dans le cas présent, nous cherchons à extraire des patrons morpho-syntaxiques des titres et des descriptions des flux RSS du journal Le Monde.
Nos travaux sont répartis en 4 boîtes à outils qui correspondent aux étapes principales du traitement des informations en Perl:
La BAO 1 est l'extraction des informations contenues dans les fils.
La BAO 2 est l'étiquetage de ces informations via TreeTagger et Cordial.
La BAO 3 est l'extraction de patrons syntaxiques à partir des sorties de la BAO 2.
La BAO 4 est la visualisation et filtrage des patrons via le programme patron2graphe.exe.