Boite à Outils 3
La troisième étape du projet cherche à extraire de nos rubriques étiquetées certains patrons morphosyntaxiques précis. Plusieurs méthodes ont été utilisées :
Méthode XSLT
La première consiste à créer des feuilles de style XSLT pour exraire nos données du fichier XML généré par TreeTagger lors de la BAO2.
J'ai donc utilisé ces
feuilles de styles
sur mes sorties TreeTagger XML des rubriques
Planète LIEN et
Culture LIEN. Voici les patrons générés :
Pour la rubrique Planète :
NOM ADJ
VER DET NOM
NOM PRP NOM PRP
Pour la rubrique Culture :
NOM ADJ
VER DET NOM
NOM PRP NOM PRP
Méthode Xquery
La deuxième méthode consiste à faire des requêtes dans ces mêmes fichiers XML via Xquery avec le programme BaseX.
Voici les
commandes Xquery utilisées. Les résultats sont maintenant structurés en XML :
Pour la rubrique Planète :
NOM ADJ
ADJ NOM
VER DET NOM
NOM PRP NOM PRP
Pour la rubrique Culture :
NOM ADJ
ADJ NOM
VER DET NOM
NOM PRP NOM PRP
Méthode Perl
La troisième méthode se concentre sur le fichier généré par Talismane dans la BAO2.
C'est un programme en Perl qui utilise un fichier annexe contenant les formes des patrons que l'on souhaite extraire.
Le script et les résulats sont disponibles ici :
SCRIPT
fichier annexe
RESULTATS