Boite à Outils 3 : Extractions de patrons morpho-syntaxiques

Cette étape est divisée en plusieurs parties : une partie qui se concentre sur les fichiers etiquetés avec treetagger, et une partie qui se concentre sur les sorties de Cordial.

Le programme de JMD

Parmis les méthodes qui s'appliquent aux sorties de Cordial, on a le programme élaboré avec Jean-Michel Daube. Il se lance avec la commande suivante :
perl Nom_du_programme FichierCordial.cnr FichierDePatrons |sort |uniq -c | sort -r > FichierDeSortie
Le programme lit le fichier.cnr ligne à ligne, et utilise les tabulations pour transformer les séquences "token lemme POS" en une ligne "POS_token POS_token POS_token ..." jusqu'à rencontrer un signe de ponctuation forte (signe que l'on a une phrase complete).
Ensuite, il stocke cette phrase dans une variable. On ouvre alors le fichier de patrons et on change chaque patron en une Expression Régulière. Si l'Expression Regulière est contenue dans la phrase, on affiche le motif. On proède ainsi pour chaque phrase jusqu'à atteindre la fin du texte. On compte les occurences de chaque motif et on rend une liste des motifs triés par nombre d'occurence (voir ci-contre).

Feuilles de Style et Xquery

Ces méthodes ont forcément besoin d'un fichier XML pour pouvoir fonctionner, on travaille donc sur les fichiers issus de TreeTagger.