Extraction des patrons

Pendant cette étape nous avons à accomplir une tâche finale de notre traitement textuel des fichiers. L'objectif principal est d'extraire des patrons dans les fichiers qui comportent les résultats de l'exécution du programme précédent (boîte à outils 2). Pour réaliser cette phase, nous avons utilisé deux méthodes possibles. D'un côté, nous avons travaillé avec les fichiers sorties au format .txt qui ont été produits à l'issue du travail sur le logiciel Cordial. De l'autre côté, nous avons introduit une requête XPath sur les sorties XML obtenues après l'exécution du programme TreeTagger.

Methode: sorties Cordial

La première méthode est basée surtout sur le traitement des fichiers au format « texte brut » que l'on a reçus après l'étiquetage via le programme Cordial. Le script Perl conçu pour le faire prend en entrée ces derniers résultats au format texte et avec un motif défini il le cherche et l'extrait de chacun des fichiers. Le résultat de ce traitement est stocké dans un fichier dont le nom est identique au motif recherché, par exemple, le motif est PDS_VINDP, alors, le fichier en sortie s'appellera PDS_VINDP.txt. Dans ce fichier qui contient le résultat on voit une liste de mots correspondant aux patrons recherchés. Pour cette phase on a choisi 15 rubriques à traiter. L'exécution de chaque rubrique était séparée, ce qui ne nous a pas paru commode à la fin, aussi parce qu'il a fallu renommer à la main chaque fichier en sortie afin de ne pas l'écraser après chaque exécution suivante.

Méthode: sorties TreeTagger

Cette méthode consiste à lancer une requête XPath sur les fichiers au format XML qui contiennent également les résultats de l'étape précédente. Ces fichiers ont été produits par le biais du programme TreeTagger. L'extraction des patrons s'effectue à l'aide d'une requête XPath qui, étant incluse dans le script Perl en question, parcourt les fichiers XML obtenus avec TreeTagger et cherche le motif demandé. Le motif est présenté dans le fichier de patron qu'on écrit sur la ligne de commande après le fichier XML à parcourir. La ligne $search_path="//element/data[1][contains(text(),\"$first_token\")]"; détermine justement la requête XPath, où la variable $first_token correspond au premier motif recherché.