La boîte à outils 3



Nous poursuivons la construction de nos boîtes à outils par la troisième du nom, qui a pour but de proposer des méthodes d'extraction de patrons morpho-syntaxiques sur les fichiers texte et XML générés respectivement par Cordial et TreeTagger dans la boîte à outils 2. Nous vous présentons 3 scripts différents, chacun réalisé par un de nos enseignants.

Nous souhaitons extraire les patrons suivants :

ADJ NOM

NOM PREP NOM

V V


Méthode de Jean-Michel Daube


Cette méthode extrait les patrons sur les sorties texte brut étiquetés par Cordial à la fin de la BàO 2. Ce programme prend en entrée un fichier Cordial (.cnr, avec les trois colonnes : token, lemme, catégorie grammaticale) et un fichier contenant les motifs à extraire. On lit le fichier pris en entrée phrase par phrase (on s'arrête à chaque ponctuation) et on met les parties du discours dans des listes pour vérifier si elles correspondent aux patrons recherchés. Nous avons un peu modifié le programme pour que lorsqu'il y a des correspondances, les tokens soient affichés dans des fichiers de sortie. Pour plus de clarté, il y a autant de fichiers de sortie que de motifs recherchés, ici 3.

Voici un exemple de sortie produite par ce script :


Exemple sortie patron Verbe Verbe


Méthode de Rachid Belmouhoub

Cette méthode extrait les patrons sur les sorties XML étiquetées par TreeTagger. Elle utilise le module XML::XPATH, ce qui permet l'intégration et l'exécution de requêtes XPath dans le script.

Le programme prend deux arguments : un fichier XML et un fichier de patrons. Le script comporte deux grandes étapes : la construction du chemin XPath par la procédure construit_XPath puis la récupération du chemin venant d'être créé par la fonction extract_pattern.

Voici un exemple de sortie produite par ce script :


Exemple sortie patron NOM PRP NOM


Méthode de Serge Fleury

Cette fois, le script ne requiert qu'un seul argument : au choix un fichier étiqueté par Cordial ou un fichier annoté par TreeTagger mais il faut apporter des modifications au programme selon le motif recherché.

La méthode reprend les colonnes des fichiers générés par Cordial ou TreeTagger pour les mettre dans des listes. Il y a ensuite un parcours des listes de parties du discours pour trouver celles correspondant aux motifs du fichier de patrons.

Voici un exemple de sortie produite par le script pour un fichier étiqueté par Cordial :


Extraction Cordial pour le motif ADJ NOM


Téléchargements

Script méthode de Jean-Michel Daube

Exemple de fichier résultat généré pour le motif V V sur la rubrique EUROPE

Script méthode de Rachid Belmouhoub

Exemple de fichier résultat généré pour le motif NOM PRP NOM sur la rubrique POLITIQUE

Script méthode de Serge Fleury pour un fichier annoté avec Cordial

Exemple de fichier résultat généré pour le motif ADJ NOM sur la rubrique INTERNATIONAL, à partir d'un fichier Cordial