Nous allons ici créer des nuages montrant de manière concrète les relations entre les différents mots à l'intérieur de chaque rubrique
Cliquez ici pour télécharger le programme


Le programme, executable sous Windows, s'appelle en ligne de commande avec ses arguments. On écrit donc :
patron2graphe.exe "encodage" fichier-entree fichier-motif
Le fichier de motif est cependant facultatif. En ne l'ajoutant pas, on observe un graphe représentant l'ensemble du fichier d'entrée

Par exemple, pour le fichier de la rubrique A LA UNE extrait par Cordial :



Le graphe obtenu est extrêmement compact, comporte énormément de données, et est quasimment illisible.
En revanche, si l'on donne un motif au programme, les résultats peuvent être intéressant.
Par exemple, si l'on donne comme motif "manifest" pour la sortie NPN de Cordial, toujours sur la rubrique A LA UNE, on obtiendra le graphe suivant :


Le résultat est assez pauvre puisque le corpus 2008 ne traite que quinze jours de fils RSS
Si on l'applique à la sortie Treetagger (corpus 2012), on obtient le graphe suivant :





De même, si l'on applique le motif "politique" à la sortie Treetagger de la rubrique ENVIRONNEMENT, on obtiendra le graphe suivant :





Ce type de traitement peut être utile pour, par exemple ici, comparer et analyser le contenu d'un journal au fil des ans. Bien évidemment, on ne peut comparer quinze jours de fils RSS avec une année entière et en ressortir des résultats valables. Ce serait cependant le cas avec des corpus entiers.