Boîte à outils n°3

Dans cette boîte à outils, notre objectif est d'extraire des patrons dans les sorties produites à l'issue de la BAO 2. Pour y parvenir nous nous sommes servies de deux méthodes différentes, la première se base sur des fichiers de contenu textuel, et la deuxième sur des fichiers XML.

Méthode 1 : Script pour la sortie Cordial

Nous avions dans un premier temps utilisé un programme que nous avions réalisé en cours, mais nous avons rencontré quelques soucis, notre programme tournait pendant des heures. Nous avons donc décidé d'utiliser un autre script, présent dans la page du cours, celui réalisé par Serge Fleury.

Ce script prend en entrée les sorties « brutes » de l'étiquetage, et en particulier les sorties obtenues avec Cordial dans la BAO 2. Nous avons ajouté quelques lignes au script, afin d'avoir les résultats dans un fichier de sortie TXT :


  • Pour ouvrir le fichier de sortie, qui contiendra nos patrons :

  • open (OUT, ">patron_cordial.txt");
    			


  • Pour que le résultat s'imprime dans le fichier et que le fichier soit ensuite fermé :

  • 		    print OUT $listedetokens[$indice+$i]," ";
    		}
    		print OUT "\n";
    	    }
    	}
        }
        $indice++;
        # on avance dans la liste des POS et des TOKEN en //
    }
    close (OUT);
    


    Pour utiliser ce programme, dans le terminal nous devons tout d'abord donner le nom du script, le nom du fichier TXT dont nous voulons extraire les patrons, puis le fichier contenant le motif (les patrons qui nous intéressent) :




    Voici un aperçu des résultats pour les patrons NOM ADJ, NOM NOM et NOM PREP NOM :



  • Pour télécharger les résultats des patrons, cliquez sur : NOM ADJ , NOM NOM , NOM PREP NOM
  • Pour télécharger le script utilisé : ici
  • Méthode 2 : Xpath

    Nous avons utilisé le programme de Rachid Belmouhoub, lancé de la manière suivante :



    Et cela afin d'extraire les patrons souhaités du fichier XML de la BAO 2 à l'aide de la bibliothèque XML::XPATH. Cependant, ce fichier semble trop lourd pour le traitement désiré puisque le message d'erreur suivant nous est retourné :



    Nous n'avons pas trouvé de solution pour régler ce problème. Nous avons donc tenté une dernière méthode pour l'extraction des patrons dans la partie suivante.

    Méthode 3 : Xslt

    Nous avons écrit différentes feuilles de styles XSLT en nous basant sur les connaissances acquises durant le cours "Document Structuré" et mises en oeuvre dans notre projet. Ces feuilles de styles permettent de n'afficher que les mots correspondant aux patrons recherchés.

  • Notre première feuille de styles permet d'extraire les mots qui correspondent au patron "NOM-ADJ". Voilà un aperçu du résultat (pour accéder au résultat complet, cliquez sur l'image) :





  • Notre seconde feuille de styles permet d'extraire les mots qui correspondent au patron "NOM-NOM". Voilà un aperçu du résultat (pour accéder au résultat complet, cliquez sur l'image) :





  • Notre troisième feuille de styles permet d'extraire les mots qui correspondent au patron "NOM-PREP-NOM". Voilà un aperçu du résultat (pour accéder au résultat complet, cliquez sur l'image) :





  • Boîte à outils précédente   Haut de page   Boîte à outils suivante