Boîte à outils #3





Objectif

A partir des étiquetages réalisés par Treetagger et Cordial, dans la seconde boîte à outils, nous devons procéder à l'extraction de patrons syntaxiques prédéfinis:

• DET ADJ NOM
• NOM ADJ
• NOM PREP NOM

Trois méthodes diffèrentes ont été mises en oeuvre pour effectuer cette tâche d'extraction:

1) Application d'un script perl sur la sortie de Cordial au format TXT.
2) Application d'un script perl sur la sortie de Treetagger au format XML.
3) Utilisation d'une feuille XSL qui extrait les patrons via des requêtes XPATH.

Extraction pour la sortie Cordial :


Nous avons utilisé le script perl élaboré par M. Serge Fleury qui propose une extraction à partir d'expressions régulières. On fournit en entrée le fichier étiqueté par Cordial, ainsi qu'un autre fichier qui contient les patrons que l'on souhaite extraire. Afin d'avoir une meilleure visibilité des résultats, nous avons opté pour un fichier par patron. Ce programme va parcourir l'ensemble des tokens et des POS (Parts Of Speech) et extraire à l'aide des expressions régulières les formes qui correspondent au patron recherché.

• Cliquez sur l'image pour visualiser le script.


Résultat de l'extraction


• Cliquez sur les images pour visualiser les listes entières.

1)NOM-PREP-NOM

2)NOM-ADJ

3)DET-NOM-ADJ




Extraction pour la sortie Treetagger : Script perl


Dans ce script, la méthode d'extraction des patrons repose sur l'utilisation de la librairie XML::XPATH. On va rechercher des motifs dans notre fichier XML, en utilisant des requêtes XPATH à l'interieur du script :


• Pour visualiser le script en entier cliquez ICI

Résultat de l'extraction


Nous avons rencontré quelques difficultés pour extraire les patrons liées au trop gros volume de notre fichier. En effet, lorsque nous lancions le programme, au bout de quelques minutes de traitement un message d'erreur était retourné par le terminal: Out of memory!.

Nous avons donc décidé de répartir le contenu de notre arborescence dans deux répertoires diffèrents. Un répertoire pour les six premiers mois et un autre pour le reste. Ainsi nous avons relancé notre script (tour à tour) sur nos deux fichiers xml récupérés préalablement. Les résultats d'extraction de chacun des fichiers lancés, ont ensuite été concaténés et enregistrés dans un unique fichier.

Les résultats sont identiques à ceux de l'extraction sur la sortie Cordial.


• Pour visualiser les résultats du motif NOM-PREP-NOM, cliquez ICI

• Pour visualiser les résultats du motif NOM-ADJ, cliquez ICI

• Pour visualiser les résultats du motif DET-ADJ-NOM, cliquez ICI




Extraction pour la sortie Treetagger : Feuille XSLT


• Recherche motif "DET-ADJ-NOM"

Pour construire les listes des patrons visés, nous utilisons des requêtes XPATH dans des feuilles xslt. On travaille sur le noeud pére "élément".

Nous vous présentons la feuille de style utilisée pour extraire le patron DET-ADJ-NOM ainsi que les modifications qui y ont été apportées (donnant naissance à deux autres feuilles) pour pouvoir extraire les patrons NOM-PREP-NOM et ADJ-NOM. On recherche donc les noeuds "élément" dont le premier fils "data" contient "ADJ" (c'est-à-dire, les éléments qui ont été catégorisés comme étant des adjectifs), et dont le premier fils "data" des noeuds "élément" qui les précèdent contient "DET", et le premier fils "data" des noeuds "élément" qui les suivent contient "NOM". Soit, les éléments qui ont été catégorisés comme étant des déterminants doivent précedés ceux qui ont été catégorisés comme adjectifs, qui eux même doivent précedés ceux catégorisés en noms.


Résultat de l'extraction



Clisuez sur l'image pour visualiser le résultat complet



• Recherche motif "NOM-ADJ"

Pour procéder à l'extraction de ce nouveau patron, il suffira de modifier quelques lignes de la feuille de style décrite précédement par celles présentées ci dessous. En cliquant sur l'image, vous pourrez visualiser cette partie intégrée dans la feuille xslt.


Résultat de l'extraction


Clisuez sur l'image pour visualiser le résultat complet.



• Recherche motif "NOM-PREP-NOM"

Cliquez sur l'image pour visualiser cette partie de script, intégrée dans la feuille xslt.


Résultat de l'extraction


Clisuez sur l'image pour visualiser le résultat complet.