La boîte à outils 3
Nous poursuivons la construction de nos boîtes à outils par la troisième du nom, qui a pour but de proposer des méthodes d'extraction de patrons morpho-syntaxiques sur les fichiers texte et XML générés respectivement par Cordial et TreeTagger dans la boîte à outils 2. Nous vous présentons 3 scripts différents, chacun réalisé par un de nos enseignants.
Nous souhaitons extraire les patrons suivants :
ADJ NOM
NOM PREP NOM
V V
Méthode de Jean-Michel Daube
Cette méthode extrait les patrons sur les sorties texte brut étiquetés par Cordial à la fin de la BàO 2. Ce programme prend en entrée un fichier Cordial (.cnr, avec les trois colonnes : token, lemme, catégorie grammaticale) et un fichier contenant les motifs à extraire. On lit le fichier pris en entrée phrase par phrase (on s'arrête à chaque ponctuation) et on met les parties du discours dans des listes pour vérifier si elles correspondent aux patrons recherchés. Nous avons un peu modifié le programme pour que lorsqu'il y a des correspondances, les tokens soient affichés dans des fichiers de sortie. Pour plus de clarté, il y a autant de fichiers de sortie que de motifs recherchés, ici 3.
Voici un exemple de sortie produite par ce script :
Méthode de Rachid Belmouhoub
Cette méthode extrait les patrons sur les sorties XML étiquetées par TreeTagger. Elle utilise le module XML::XPATH, ce qui permet l'intégration et l'exécution de requêtes XPath dans le script.
Le programme prend deux arguments : un fichier XML et un fichier de patrons. Le script comporte deux grandes étapes : la construction du chemin XPath par la procédure construit_XPath puis la récupération du chemin venant d'être créé par la fonction extract_pattern.
Voici un exemple de sortie produite par ce script :
Méthode de Serge Fleury
Cette fois, le script ne requiert qu'un seul argument : au choix un fichier étiqueté par Cordial ou un fichier annoté par TreeTagger mais il faut apporter des modifications au programme selon le motif recherché.
La méthode reprend les colonnes des fichiers générés par Cordial ou TreeTagger pour les mettre dans des listes. Il y a ensuite un parcours des listes de parties du discours pour trouver celles correspondant aux motifs du fichier de patrons.
Voici un exemple de sortie produite par le script pour un fichier étiqueté par Cordial :
Téléchargements
Script méthode de Jean-Michel Daube
Exemple de fichier résultat généré pour le motif V V sur la rubrique EUROPE
Script méthode de Rachid Belmouhoub
Exemple de fichier résultat généré pour le motif NOM PRP NOM sur la rubrique POLITIQUE
Script méthode de Serge Fleury pour un fichier annoté avec Cordial