Projet encadré 2

Accueil BAO1 BAO2 BAO3 BAO4 Analyse

BAO3



Dans cet étape on va travailler sur les différentes méthodes utilisées pour l'extraction des patrons morphosyntaxiques sur les deux types de fichiers:

On utilisera trois types de méthodes:

Extraction avec Perl sur un fichier .cnr avec fichier contenant les patrons à extraire



Pour l'extraction on a utilisé le programme Perl disponible ici et un fichier .txt contenant la liste des patrons que l'on veut extraire.

Voilà un exemple du fichier .txt



Pour exécuter le programme il faut taper la commande suivante:

perl MonProg.pl Fichier.cnr Fichier_patrons.txt (on pourra rajouter > Mon_fichier_sortie.txt si l'on veut créer un fichier de sortie

ATTENTION!!! Le fichier .cnr doit être converti en UTF8 et le retour à la ligne doit être le même que celui du ficher contenant les patrons!!!

Voici un aperçu du résultat:



Extraction avec Perl sur un fichier .cnr SANS fichier contenant les patrons à extraire



Toujours en utilisant un programme Perl disponible ici, on va extraire des patrons morhosyntaxiques en insérant le patron directement dans le programme, on n'aura donc pas besoin d'utiliser un fichier .txt à part contenant les patrons

Pour exécuter le programme il faut taper la commande suivante:

perl MonProg.pl Fichier.cnr (on pourra rajouter > Mon_fichier_sortie.txt si l'on veut créer un fichier de sortie)

Supposons que l'on voulait extraire le patron morphosyntaxique NOM PREP NOM et la fréquence de chaque nom prep nom dans le texte

Voici un aperçu du résultat:



Extraction avec XSLT sur un fichier .xml étiqueté par Treetagger



Ici on procéde à l'extraction des patrons grace à l'aide d'une feuille de styles XSLT disponible ici (cette méthode ne marche que sur les fichiers étiquetés avec Treetagger)



Dans cet exemple de feuille de styles, on extrait le patron VERBE ADV PREP

Pour extraire les patrons il faudra inclure la feuille de style dans le document xml de la façon suivante:



Il y deux possibilités par rapport à la façon dont on veut extraire nos patrons:

Dans ce dernier cas, il faudra taper la commande suivante dans notre terminal:

xsltproc Mon_doc.xml (on pourra toujours rajouter un > Mon_fichier_sortie.txt si l'on veut créer un fichier de sortie

Voici un aperçu du résultat:



Extraction avec XQuery sur un fichier .xml étiqueté par Treetagger



Ici on procéde à l'extraction des patrons à travers une requête XQuery disponible ici. Pour créer et exécuter la requête on a utilisé le logiciel BaseX

Dans cet exemple d'extraction, on vise à obtenir une liste de tous les NOM PREP NOM (le résultat s'affichera dans le logiciel)

Voici un aperçu du résultat: