La Boîte à Outils 3

La Boite à Outils 3, nous aidera a extraite des patrons morphosyntaxiques dans les fichiers taggé que nous avons déjà obtenu avec Treetageer et Cordial. Nous avons donc choisi deux patrons morphosyntaxiques : -NOM -ADJ et -PREP-NOM-PREP.

Nous avons tout d’abord utiliser un script Perl pour extraire nos patrons morphosyntaxiques vers un fichier au format txt.

script NOM-ADJ
script NOM-PRP-NOM

Voici les résultats obtenus pour NOM-PRP-NOM:

3208
3210
3224

Voici les résultats obtenus pour NOM-ADJ:

3208
3210
3224

Ensuite, nous allons utiliser un autre script Perl que nous exécuterons afin d’obtenir les patrons morphosyntaxiques, en utilisant les étiquetages produits par le logiciel Cordial. Nous allons donc avoir besoin aussi d’un autre fichier txt qui contiendra les motifs que nous avons choisi. Nous allons obtenir comme résultat un fichier de sortie txt qui contient les motifs recherchés:


3208
3210
3224
Voici le script
Voici le fichier des motifs

$ perl extractionPatrons.pl 3210.xml patron.txt | sort | uniq -c | sort -gr > N-PREP-N_3210.txt



XSLT

Comme nous travaillons avec des fichiers au format XML, nous allons pouvoir utiliser aussi des feuilles de style XSLT pour extraire nos patrons. Cependant, nous avons réussi à obtenir un résultat satisfaisant uniquement avec la rubrique 3224. Pour les 2 autres rubriques, nous avons obtenu des erreurs que nous avons pas réussi à résoudre, les fichiers étant très volumineux.


Une autre solution pour extraire les patrons est d’utiliser des requêtes xQuery:

NOM-ADJ
NOM-PREP-NOM

Voici le résultat obtenu pour la rubrique 3224

NOM-ADJ
NOM-PREP-NOM

Et, finalement, le sortie de NOM-PREP-NOM et NOM_ADJ de XPath: