Accueil BAO1 BAO2 BAO3 BAO4

Boite à Outils 3

La troisième étape du projet cherche à extraire de nos rubriques étiquetées certains patrons morphosyntaxiques précis. Plusieurs méthodes ont été utilisées :

Méthode XSLT


La première consiste à créer des feuilles de style XSLT pour exraire nos données du fichier XML généré par TreeTagger lors de la BAO2.
J'ai donc utilisé ces feuilles de styles sur mes sorties TreeTagger XML des rubriques Planète LIEN et Culture LIEN. Voici les patrons générés :

Pour la rubrique Planète :

NOM ADJ
VER DET NOM
NOM PRP NOM PRP

Pour la rubrique Culture :

NOM ADJ
VER DET NOM
NOM PRP NOM PRP

Méthode Xquery


La deuxième méthode consiste à faire des requêtes dans ces mêmes fichiers XML via Xquery avec le programme BaseX.
Voici les commandes Xquery utilisées. Les résultats sont maintenant structurés en XML :

Pour la rubrique Planète :

NOM ADJ
ADJ NOM
VER DET NOM
NOM PRP NOM PRP

Pour la rubrique Culture :

NOM ADJ
ADJ NOM
VER DET NOM
NOM PRP NOM PRP

Méthode Perl


La troisième méthode se concentre sur le fichier généré par Talismane dans la BAO2.
C'est un programme en Perl qui utilise un fichier annexe contenant les formes des patrons que l'on souhaite extraire.
Le script et les résulats sont disponibles ici :

SCRIPT
fichier annexe
RESULTATS