Boîte à outils #4



Objectif

Le but de cette dernière boîte à outils est de produire des graphes de concordance à partir des fichiers xml et txt de la boîte à outils 3. Les graphes produits vont permettre de mettre en exergue les attirances qui existent entre diffèrents termes, en fonction du patron syntaxique choisi.


Outil

Pour réaliser ce travail, nous avons utilisé le programme patron2graphe.exe. en ligne de commande. Il est nécessaire de préciser l'encodage de notre fchier ainsi que son nom, puis de donner le nom du fichier qui contient le motif que l'on recherche. Si on travaille sur une sortie de Treetagger il sera nécessaire de lancer le fichier motif utf-8. En revanche pour Cordial on choisira le fichier motif-iso-8859-1:





Les graphes:



* NOM-PREP-NOM

SORTIE CORDIAL: "\bprison"

SORTIE TREETAGGER: "\bprison"




* DET-ADJ-NC

SORTIE CORDIAL: "\bpolit"

SORTIE TREETAGGER: "\bpolit"




*NOM-ADJ

SORTIE CORDIAL: "\bgouv"

SORTIE TREETAGGER: "\bgouv"



• On remarque que les graphes des fichiers Treetagger et Cordial ne donnent pas une représentation identique des relations entre les mots. Les divergences qui ont pu être relevées se positionnent, essentiellement, sur un plan quantitatif. En effet, Treetagger donne à voir beaucoup plus de relations entre les termes du patron donné que Cordial. Il est également à noter que les deux étiqueteurs ne retournent pas toujours le même nombre d'occurrences pour un même terme. On observe également une certaine disparité dans la manière qu'ont les étiqueteurs de catégoriser les termes. Par exemple, pour le patron NOM-PREP-NOM et le motif "\bprison", contrairement à Treetagger, Cordial étiquette les dates comme des noms.