EXTRACTION DE PATRONS MORPHOSYNTAXIQUES

Cette étape est dédiée à l'extraction des patrons morphosyntaxiques. Je vous rappelle que nous avons obtenu deux fichiers pour chaque rubriques choisi, et bien sur étiquetés via Cordial et treetagger. Cette étape est très importante car la procédure est un peu compliqué. Pour les fichiers cordial nous allons utiliser un script donné par notre professeur Jean-Michel Daube, qui va extraire les patrons des fichier txt. Par contre les fichiers XML c'est un autre processus. Nous allons faire appel aux feuilles de styles XSLT afin de les afficher sur le moteur de recherche. .


Maintenant il faut choisir les types de patrons que j'estime intéressants, et pour ma part j'ai choisi V-NOM et V-DET-NOM.

TreeTagger


Les fichier taggés par TreeTagger, sont au format XML et pour les afficher sur le moteur de recherche nous allons faire appel aux feuilles de style XSLT. c'est feuilles de styles nous aide non seulement à afficher les fichiers xml mais aussi à extraire les patrons de ces fichiers. Nous pouvons également extraire les patrons des fichiers XML à l'aide d'un script en langage Perl. Vous pouvez jetter un coup d'oeil sur ce script ainsi sur les résultats obtenus ici :


Cordial

Dans cette partie, nous allons travailler sur les fichiers au format TXT étiqueté par Cordial. Pour y faire, Nous allons utiliser un script Perl fait et fournit par notre professeur Jean-Michel Daube. Ce programme nécessite un fichier parametre qui indique les motifs afin d'extraire les patrons choisi. Voici un image de script perl :


Et voilà les résultats obtenus :