Le principe de cette Boîte à Outils 3 consiste à faire un peu plus de linguistique encore. Il s'agit d'extraire des patrons
morphosyntaxiques à partir nos étiquetages BAO2.
Deux procédés pour cette réalisation. Un premier qui consiste en recherche des patrons par expressions régulières sur l'étiquetage texte Cordial tandis que le second s'attache à profiter de la structure XML des annotations TreeTagger en exécutant des requêtes XPath pour l'identification de patron.
C'est horrible, autant dire que le formatage nous pousse à la plus grande attention pour la suite...
Identification de notre structure étiquetée sur trois colonnes dans une liste.Remarquez le chomp Perl pour la suppression des caractères sauts de ligne, plus la suppression des fins de lignes retour-chariots par une opération de substitution.
On récupère les patrons pour une phrase à chaque fois. L'indice j permet de compter le nombre de patrons récupérés, la position dans la liste.
Important de comprendre que ce traitement fonctionne sur les positions parallèles des token, lemme, catégorie dans leurs listes respectives.
Grosse galère ici parce qu'il est nécessaire que l'encodage du fichier requête et du programme soit le même, sinon dysfonctionnement surprenant
lorsqu'il n'y pas de reconnaissance du caractère séparateur des sous-patrons bien qu'ils soient visuellement identiques !!!!!!
Mon caractère séparateur est donc ici le blanc soit l'espace.
Notez la variable "avant" pour obtenir exactement la longueur de ce qui matche. C'est capital ensuite pour récupérer le bon nombre de tokens
sur les patrons concernés.
Travail sur corpus SOCIÉTÉ 2013 TreeTagger XML
Script Cordial Regexp
Script TreeTagger Xpath