Présentation de la boîte à outils

Pour la réalisation des différentes tâches de notre projet, nous avons organisé ces tâches dans 4 boîtes à outils :

  1. BàO 1 : Extraction (filtrage, nettoyage...).
  2. BaO 2 : Etiquetage (Treetagger,Cordial).
  3. BaO 3 : Extraction patron.
  4. BaO 4 : Des textes aux Graphes avec patron2graphe.

A l'issue de chaque étape, nous produisons des données en sortie qui seront à leurs tour des entrées pour les étapes suivantes. Pour l'étape extraction, nous utilisons deux scripts Perl différents, le premier se base sur le parcours de l'arborescence de fils RSS pour y extraire d'abord les rubriques puis pour chaque rubrique nous construisons deux fichiers XML et TXT selon les rubriques repérées, et l'autre qui fait appel à la librairie Perl XML::LibXML qui permet de parser et parcourir les éléments du fichier XML. Ces deux fichiers contiendront les titres et les descriptions de chaque rubrique qui seront des entrées pour Treetagger et Cordial respectivement.

L'étape suivante de notre projet concerne la BàO 2 qui est l'étiquetage par Treetagger et Cordial. Pour le cas de Treetagger, la tâche est de construire un programme Perl qui parcourt une arborescence fichiers et applique un traitement d'étiquetage sur chacun des fichiers au moment du parcours. En sortie, le programme doit construire un fichier XML contenant une trace du traitement réalisé sur les fichiers. Pour le cas de Cordial, il suffit d'utiliser l'interface graphique de Cordial en important le fichier TXT issu de l'étape 1 puis d'effectuer l'étiquetage.

Pour l'étape d'extraction des patrons (BaO3), il y a 3 manières de le faire: la première, un script Perl sur la sortie Cordial, la seconde, un script Perl aussi qui parcourt le fichier XML Treetagger qui repère les patterns que nous souhaitons extraire,et enfin, la consruction d'une feuille XSLT sur la sortie XML treetagger.

Pour finir, la dernière étape du projet concerne la représentation des différents patrons extraits durant l'étape précédente par un graphe de type entités-relations.

Le schéma suivant illustre l'ensemble des étapes du projet à réaliser :