Dernière boite à outils (BàO 4)

On applique le programme patron2graphe (disponible sur I-Campus) sur les données construites en BAO 3. Ce programme va permettre d'afficher des graphes qui montrent les relations entre le mot choisi (motif) et les mots de son contexte.

nous avons téléchargé le programme de Serge FLEURY patron2graphedemots-unix et nous avons écrit dans la ligne de commande suivante:


./patron2graphedemots-unix "encodage" fichier-sortie.txt motif.txt



Nous avons extrait le motif « travail » sur un des fichiers NC-ADJ.txt Nous observons que le terme travail sous plusieurs formes est bien soit lié à un adjectif, lorsqu’il est nom, soit lié à un nom lorsqu’il est sous sa forme adjectivée.



Puis nous avons extrait le motif travail sur un des fichiers NC-PREP-NC.txt Nous observons alors que la forme de PREP la plus courante est le « de » et que l’on retrouve également « en » « du » « avec » « sans ». Les formes NOM-PREP-NOM sont bien respectées


Nous extrayons ensuite le motif « gouvernement » sur un des fichiers NC-ADJ.txt Nous obtenons toujours des résultats satisfaisants, NOM-ADJ. Cependant, avec notre motif « (G|g)ouvernement » , seules les formes « gouvernemental.e.s » se sont extraites. Nous pouvons supposer que d’autres formes de « gouvernements » n’existent pas car aucun n’est extraite.


De même pour le motif « président » que nous avons écrite « (P|p)résident » sur nos fichiers NC-ADJ.txt Nous avons également uniquement les formes « présidentiel.le.s » qui sont extraites.



Nous pouvons également extraire ce motif sur un fichier NC-PREP-NC.txt

Conclusion


Nous avons utilisé plusieurs méthodes de parcours de fichiers, d'annotation, d'extraction etc. Cependant chaque méthode a ses avantages et ses inconvénients.

Annotation :


Nous avons utilisé deux outils d'annotation ; Treetagger et Cordial. Treetagger semble le plus connu,le plus adapté au français. Néanmoins nous nous sommes rendu compte qu'il y a pas mal d'erreurs d'annotation , par exemple les determinants suivis d'un nom ; treetagger associe directement les déterminants aux noms c'est-â-dire que le déterminant est rattaché au nom lors de l'affichage . Cordiale
Le seul défaut de cordial est qu'il ne traite que de l'iso-8859-1 ou ANSI. Donc il faut transcoder les fichiers en ISO, et puis transcoder les fichiers de sortie en UTF-8 pour pouvoir les traiter correctement. Il n'empêche que l'annotation Cordial est meilleure que celle de treetagger, on a moins d'erreurs, il traite bien les déterminants, les noms etc.

Parcours & Extraction :


Perl :


efficace mais extrêmement long, 5h minumum pour une seule rubrique


XQUERY


Rapide ::: moins d'une minute pour parcourir une forêt et en extraire des patrons.

Comme nous l'avons vu, nous avons eu l'occasion d'utiliser plusieurs outils pour faire la même tâche, ce qui nous a permis de comprendre les différences entre ces outils, leurs avantages et leurs inconvenants.

la visualisation en graphe permet de se focaliser sur des sujets particuliers et de voir comment ces sujets sont traités, à quoi ils sont reliés dans les médias.