Alican Yüksel

alicanyuksel@outlook.com

Oussama Id Ali

oussamaidali@gmail.com

Boite à outil 3

La boîte à outils 3 se base sur les résultats de la BaO2.

Avec celle-ci, on a pour but d'extraire les patrons que l'on souhaite. On s'appuie sur les sorties TALISMANE.
Le résultat de cette extraction est écrit dans un fichier txt avec le nombre total des éléments trouvés !

Script en Perl

Le script prend deux arguments :
- le fichier de sortie TALISMANE
- le fichier dans lequel c'est écrit les patrons

--> perl bao3.pl sortietalismane.txt fichierpatron.txt

Dans le fichier de sortie, on a un ordre décroissant pour chaque patron !
Cliquez pour voir les patrons qu'on souhaite extraire !

Script Perl-BaO3 : Cliquez ici pour télécharger !

Résultat obtenu via le script Perl

Sortie 3208 : Cliquez ici pour voir !
Sortie 3210 : Cliquez ici pour voir !
Sortie 3214 : Cliquez ici pour voir !




Solution avec XSLT

Dans cette partie on va travailler sur les fichiers sorties produits par Treetagger avec xsltproc. On va construire une feuille de XSLT et ensuite on va parcourir notre fichier xml pour pouvoir extraire les patrons qu'on veut !
Pour faire cela la commande sera comme la suivante -->
xsltproc xslt_npnpn.xsl sortie-3210-regexp.xml | sort | uniq -c | sort -gr > xslt_sortie_npnpn.txt

Résultats obtenus via XSLT

Feuille de XSLT pour NOM PREP NOM PREP NOM : Cliquez ici pour voir !
Sortie XSLT -NOM PREP NOM PREP NOM - 3208 : Cliquez ici pour voir !
Sortie XSLT -NOM PREP NOM PREP NOM - 3210 : Cliquez ici pour voir !
Sortie XSLT -NOM PREP NOM PREP NOM - 3214 : Cliquez ici pour voir !

Feuille de XSLT pour VERB DET NOM : Cliquez ici pour voir !
Sortie XSLT - VERB DET NOM - 3208 : Cliquez ici pour voir !
Sortie XSLT - VERB DET NOM - 3210 : Cliquez ici pour voir !
Sortie XSLT - VERB DET NOM - 3214 : Cliquez ici pour voir !

Feuille de XSLT pour NOM ADJ : Cliquez ici pour voir !
Sortie XSLT - NOM ADJ - 3208 : Cliquez ici pour voir !
Sortie XSLT - NOM ADJ - 3210 : Cliquez ici pour voir !
Sortie XSLT - NOM ADJ - 3214 : Cliquez ici pour voir !

Feuille de XSLT pour ADJ NOM : Cliquez ici pour voir !
Sortie XSLT - ADJ NOM - 3208 : Cliquez ici pour voir !
Sortie XSLT - ADJ NOM - 3210 : Cliquez ici pour voir !
Sortie XSLT - ADJ NOM - 3214 : Cliquez ici pour voir !

Remarques pour les sorties XSLT

Tout d'abord, on peut dire qu'on n'a pas pu obtenir le même nombre d'occurrences qu'on a eu avec le script Perl. Pourquoi les résultats ne sont pas les mêmes ? Car le script perl fait l'extraction à partir du fichier produit/étiqueté par Talismane mais pour XSLT on travaille avec le fichier produit par Treetagger.
Ce qu'on a pu observer avec les résultats obtenus c'est que Treetagger étiquète mal parfois comparé à Talismane. On a eu pas mal d'erreurs d'étiquatage et encore souvent, par exemple, une étiquatage qui nous sautait aux yeux c'était que Treetagger considerait "l' " comme NOM.

Solution avec XQuery avec le fichier Treetagger en entrée

Pour cete partie, on a travaillé sur le logiciel BaseX qui nous permet également de taper des requêtes XQuery. Il faudrait rappeler avant de commencer que XQuery c'est un langage de requête très performant. Tous les resultats qu'on a eu sont obtenus en quelques secondes.

Requête pour NOM PREP NOM PREP NOM :

Sortie XQuery - NOM PREP NOM PREP NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3214 : Cliquez ici pour voir !

Requête pour VERB DET NOM :

Sortie XQuery - VERB DET NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3214 : Cliquez ici pour voir !

Requête pour NOM ADJ :

Sortie XQuery - NOM ADJ- 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3214 : Cliquez ici pour voir !

Requête pour ADJ NOM :

Sortie XQuery - ADJ NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3214 : Cliquez ici pour voir !



Solution avec XQuery avec le fichier Talismane en entrée

Pour cette partie, d'abord on doit convertir notre fichier Talismane en un fichier XML. Pour cela, on a un script Perl. Ensuite comme on a fait juste au-dessus, on va travailler sur le logiciel BaseX.


Script Perl pour convertir le fichier Talismane : Cliquez ici pour télécharger !

Sortie TALISMANE 3208 XML : Cliquez ici pour télécharger !
Sortie TALISMANE 3210 XML : Cliquez ici pour télécharger !
Sortie TALISMANE 3214 XML : Cliquez ici pour télécharger !



Requête pour NOM PREP NOM PREP NOM :

Sortie XQuery - NOM PREP NOM PREP NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM PREP NOM PREP NOM - 3214 : Cliquez ici pour voir !

Requête pour VERB DET NOM :

Sortie XQuery - VERB DET NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - VERB DET NOM - 3214 : Cliquez ici pour voir !

Requête pour NOM ADJ :

Sortie XQuery - NOM ADJ- 3208 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3210 : Cliquez ici pour voir !
Sortie XQuery - NOM ADJ - 3214 : Cliquez ici pour voir !

Requête pour ADJ NOM :

Sortie XQuery - ADJ NOM - 3208 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3210 : Cliquez ici pour voir !
Sortie XQuery - ADJ NOM - 3214 : Cliquez ici pour voir !



Script en Python

Script Python-BaO3 : Cliquez ici pour télécharger !

Résultat obtenu via le script Python

Sortie 3208 : Cliquez ici pour voir !
Sortie 3210 : Cliquez ici pour voir !
Sortie 3214 : Cliquez ici pour voir !

Remarques

Au final, on peut dire tout simplement que deux méthodes qu'on a traitées pour cette Boite à Outil, on a pu constater très nettement que Treetagger et Talismane ont des méthodes différentes pour l'étiquatage. Parfois on a eu le même nombre d'occurrences mais les données n'étaient pas étiquetées de la même manière. Parfois on n'a pas eu le même nombre d'occurrences. Cela nous a permis de voir des points de vue différents. On a pu surtout voir à quel point c'est important le processus d'étiquetage.

N'oubliez pas d'aller vers BaO4

Pour faire cela, il faudrait fermer cette fenetre et taper bao4 sur le terminal :)