Retour-Accueil

La Boîte À Outils 3



Objectif

Le principe de cette Boîte à Outils 3 consiste à faire un peu plus de linguistique encore. Il s'agit d'extraire des patrons morphosyntaxiques à partir nos étiquetages BAO2.



Méthode

Deux procédés pour cette réalisation. Un premier qui consiste en recherche des patrons par expressions régulières sur l'étiquetage texte Cordial tandis que le second s'attache à profiter de la structure XML des annotations TreeTagger en exécutant des requêtes XPath pour l'identification de patron.


Procédé 1 par Expression Régulière


Remarquez l'allure de notre fichier résultat par Cordial, j'ai rendu visibles les caractères cachés !!!!!!

C'est horrible, autant dire que le formatage nous pousse à la plus grande attention pour la suite...

Identification de notre structure étiquetée sur trois colonnes dans une liste.

Remarquez le chomp Perl pour la suppression des caractères sauts de ligne, plus la suppression des fins de lignes retour-chariots par une opération de substitution.

On récupère les patrons pour une phrase à chaque fois. L'indice j permet de compter le nombre de patrons récupérés, la position dans la liste.
Important de comprendre que ce traitement fonctionne sur les positions parallèles des token, lemme, catégorie dans leurs listes respectives.

Récupération des formes selon les patrons pris pour la même phrase.

Forme du fichier TXT de requête de patron

Grosse galère ici parce qu'il est nécessaire que l'encodage du fichier requête et du programme soit le même, sinon dysfonctionnement surprenant lorsqu'il n'y pas de reconnaissance du caractère séparateur des sous-patrons bien qu'ils soient visuellement identiques !!!!!!
Mon caractère séparateur est donc ici le blanc soit l'espace.
Notez la variable "avant" pour obtenir exactement la longueur de ce qui matche. C'est capital ensuite pour récupérer le bon nombre de tokens sur les patrons concernés.



Procédé 2 par requête XPath


Utilisation cette fois-ci du module Xml:XPath pour les requêtes

Fichiers de données.







Résultat


Travail sur corpus SOCIÉTÉ 2013 TreeTagger XML

Script Cordial Regexp Script TreeTagger Xpath