Boite à outil 3
La boîte à outils 3 se base sur les résultats de la BaO2.
Avec celle-ci, on a pour but d'extraire les patrons que l'on souhaite. On s'appuie sur les sorties TALISMANE.
Le résultat de cette extraction est écrit dans un fichier txt avec le nombre total des éléments trouvés !
Script en Perl
Le script prend deux arguments :
- le fichier de sortie TALISMANE
- le fichier dans lequel c'est écrit les patrons
--> perl bao3.pl sortietalismane.txt fichierpatron.txt
Dans le fichier de sortie, on a un ordre décroissant pour chaque patron !
Cliquez pour voir les patrons qu'on souhaite extraire !
Script Perl-BaO3 : Cliquez ici pour télécharger !
Résultat obtenu via le script Perl
Sortie 3208 : Cliquez ici pour voir !
Sortie 3210 : Cliquez ici pour voir !
Sortie 3214 : Cliquez ici pour voir !
Solution avec XSLT
Dans cette partie on va travailler sur les fichiers sorties produits par Treetagger avec xsltproc. On va construire une feuille de XSLT et ensuite on va parcourir notre fichier xml pour pouvoir extraire les patrons qu'on veut !
Pour faire cela la commande sera comme la suivante -->
xsltproc xslt_npnpn.xsl sortie-3210-regexp.xml | sort | uniq -c | sort -gr > xslt_sortie_npnpn.txt
Résultats obtenus via XSLT
Feuille de XSLT pour NOM PREP NOM PREP NOM : Cliquez ici pour voir !
Sortie XSLT -NOM PREP NOM PREP NOM - 3208 : Cliquez ici pour voir !
Sortie XSLT -NOM PREP NOM PREP NOM - 3210 : Cliquez ici pour voir !
Sortie XSLT -NOM PREP NOM PREP NOM - 3214 : Cliquez ici pour voir !
Feuille de XSLT pour VERB DET NOM : Cliquez ici pour voir !
Sortie XSLT - VERB DET NOM - 3208 : Cliquez ici pour voir !
Sortie XSLT - VERB DET NOM - 3210 : Cliquez ici pour voir !
Sortie XSLT - VERB DET NOM - 3214 : Cliquez ici pour voir !
Feuille de XSLT pour NOM ADJ : Cliquez ici pour voir !
Sortie XSLT - NOM ADJ - 3208 : Cliquez ici pour voir !
Sortie XSLT - NOM ADJ - 3210 : Cliquez ici pour voir !
Sortie XSLT - NOM ADJ - 3214 : Cliquez ici pour voir !
Feuille de XSLT pour ADJ NOM : Cliquez ici pour voir !
Sortie XSLT - ADJ NOM - 3208 : Cliquez ici pour voir !
Sortie XSLT - ADJ NOM - 3210 : Cliquez ici pour voir !
Sortie XSLT - ADJ NOM - 3214 : Cliquez ici pour voir !
Remarques pour les sorties XSLT
Tout d'abord, on peut dire qu'on n'a pas pu obtenir le même nombre d'occurrences qu'on a eu avec le script Perl. Pourquoi les résultats ne sont pas les mêmes ? Car le script perl fait l'extraction à partir du fichier produit/étiqueté par Talismane mais pour XSLT on travaille avec le fichier produit par Treetagger.
Ce qu'on a pu observer avec les résultats obtenus c'est que Treetagger étiquète mal parfois comparé à Talismane. On a eu pas mal d'erreurs d'étiquatage et encore souvent, par exemple, une étiquatage qui nous sautait aux yeux c'était que Treetagger considerait "l' " comme NOM.
Solution avec XQuery avec le fichier Treetagger en entrée
Pour cete partie, on a travaillé sur le logiciel BaseX qui nous permet également de taper des requêtes XQuery. Il faudrait rappeler avant de commencer que XQuery c'est un langage de requête très performant. Tous les resultats qu'on a eu sont obtenus en quelques secondes.
Requête pour NOM PREP NOM PREP NOM :
Sortie XQuery - NOM PREP NOM PREP NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3214 : Cliquez ici pour voir !
Requête pour VERB DET NOM :
Sortie XQuery - VERB DET NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3214 : Cliquez ici pour voir !
Requête pour NOM ADJ :
Sortie XQuery - NOM ADJ- 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3214 : Cliquez ici pour voir !
Requête pour ADJ NOM :
Sortie XQuery - ADJ NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3214 : Cliquez ici pour voir !
Solution avec XQuery avec le fichier Talismane en entrée
Pour cette partie, d'abord on doit convertir notre fichier Talismane en un fichier XML. Pour cela, on a un script Perl. Ensuite comme on a fait juste au-dessus, on va travailler sur le logiciel BaseX.
Script Perl pour convertir le fichier Talismane : Cliquez ici pour télécharger !
Sortie TALISMANE 3208 XML : Cliquez ici pour télécharger !
Sortie TALISMANE 3210 XML : Cliquez ici pour télécharger !
Sortie TALISMANE 3214 XML : Cliquez ici pour télécharger !
Requête pour NOM PREP NOM PREP NOM :
Sortie XQuery - NOM PREP NOM PREP NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3214 : Cliquez ici pour voir !
Requête pour VERB DET NOM :
Sortie XQuery - VERB DET NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3214 : Cliquez ici pour voir !
Requête pour NOM ADJ :
Sortie XQuery - NOM ADJ- 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3214 : Cliquez ici pour voir !
Requête pour ADJ NOM :
Sortie XQuery - ADJ NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3214 : Cliquez ici pour voir !
Script en Python
Script Python-BaO3 : Cliquez ici pour télécharger !
Résultat obtenu via le script Python
Sortie 3208 : Cliquez ici pour voir !
Sortie 3210 : Cliquez ici pour voir !
Sortie 3214 : Cliquez ici pour voir !
Remarques
Au final, on peut dire tout simplement que deux méthodes qu'on a traitées pour cette Boite à Outil, on a pu constater très nettement que Treetagger et Talismane ont des méthodes différentes pour l'étiquatage. Parfois on a eu le même nombre d'occurrences mais les données n'étaient pas étiquetées de la même manière. Parfois on n'a pas eu le même nombre d'occurrences. Cela nous a permis de voir des points de vue différents. On a pu surtout voir à quel point c'est important le processus d'étiquetage.