Le Projet

Les travaux présentés sur ce site ont été réalisés dans le cadre du cours de Programmation et Projet Encadré 2 dispensé par Serge Fleury, Jean-Michel Daube et Rachid Belmouhoud dans le cadre du master TAL à Paris 3.

L'objectif de ce cours est d'introduire la programmation Perl et l'utilisation qu'on peut en faire dans le TAL. Dans le cas présent, nous cherchons à extraire des patrons morpho-syntaxiques des titres et des descriptions des flux RSS couvrant l'année 2014 du journal Le Monde.

Un flux RSS est un fichier XML généré automatiquement et qui recense les articles publiés sur un site ou sur un blog.

Les Boîtes à Outils

Résultats

La durée de traitement des trois premières boîtes à outils sur les flux RSS du Monde pour l'année 2014 prend environ huit heures et demie sur une machine qui possède 4 Go de RAM. Le dossier compte 5826 fichiers XML potentiellement exploitables pour un total d'environ 137428 articles. En tout, 132870 articles ont été traités.

Qui suis-je ?

Vous vous demandiez qui a concocté ce petit chef-d'œuvre ? Comme je vous comprends ! Moi aussi, si j'avais sous les yeux un bijou aussi somptueux que celui-ci, je chercherais à savoir qui l'a construit !

Enfin bref, mon petit nom, c'est Anaïs et je suis étudiante en master de Traitement Automatique des Langues, et j'aime bien m'amuser et bidouiller. Je me suis inscrite après avoir travaillé un an durant pour Google en Irlande sur la reconnaissance et la synthèse vocales. Depuis, je ne jure presque que par ça, et les ornithorynques, et Alice Cooper, et Doctor Who, et les dinosaures, et les robots.

Dans la vie, mon but est de pouvoir un jour construire avec mes petites mimines un petit robot qui chante des chansons comme celles de Pierrot et le vélociraptor, et qui raconte des histoires drôles aussi. Si c'est un garçon, il s'appellera Pierrot ou Théophraste. Si c'est une fille, ce sera Léontine ou Théophrastine.

Peut-être nous retrouverons-nous plus tard...