Boîte à outils n°3
Dans cette boîte à outils, notre objectif est d'extraire des patrons dans les sorties produites à l'issue de la BAO 2. Pour y parvenir nous nous sommes servies de deux méthodes différentes, la première se base sur des fichiers de contenu textuel, et la deuxième sur des fichiers XML.
Méthode 1 : Script pour la sortie Cordial
Nous avions dans un premier temps utilisé un programme que nous avions réalisé en cours, mais nous avons rencontré quelques soucis, notre programme tournait pendant des heures. Nous avons donc décidé d'utiliser un autre script, présent dans la page du cours, celui réalisé par Serge Fleury.
Ce script prend en entrée les sorties « brutes » de l'étiquetage, et en particulier les sorties obtenues avec Cordial dans la BAO 2. Nous avons ajouté quelques lignes au script, afin d'avoir les résultats dans un fichier de sortie TXT :
Pour ouvrir le fichier de sortie, qui contiendra nos patrons :
open (OUT, ">patron_cordial.txt");
Pour que le résultat s'imprime dans le fichier et que le fichier soit ensuite fermé :
print OUT $listedetokens[$indice+$i]," ";
}
print OUT "\n";
}
}
}
$indice++;
# on avance dans la liste des POS et des TOKEN en //
}
close (OUT);
Pour utiliser ce programme, dans le terminal nous devons tout d'abord donner le nom du script, le nom du fichier TXT dont nous voulons extraire les patrons, puis le fichier contenant le motif (les patrons qui nous intéressent) :
Voici un aperçu des résultats pour les patrons NOM ADJ, NOM NOM et NOM PREP NOM :
Pour télécharger les résultats des patrons, cliquez sur : NOM ADJ , NOM NOM , NOM PREP NOM
Pour télécharger le script utilisé : ici
Méthode 2 : Xpath
Nous avons utilisé le programme de Rachid Belmouhoub, lancé de la manière suivante :
Et cela afin d'extraire les patrons souhaités du fichier XML de la BAO 2 à l'aide de la bibliothèque XML::XPATH. Cependant, ce fichier semble trop lourd pour le traitement désiré puisque le message d'erreur suivant nous est retourné :
Nous n'avons pas trouvé de solution pour régler ce problème. Nous avons donc tenté une dernière méthode pour l'extraction des patrons dans la partie suivante.