Boîte à outils 4

Représentation graphique

Les données obtenues dans la Boîte à outils 3 nous renseignent sur les termes pertinents pour chaque rubrique. Grâce à cela, on a donc un angle d'approche pour réaliser la représentation graphique des différents fichiers, à l'aide du programme patron2graphe.exe.

Comme les résultats d'extraction l'ont montré, les patrons les plus pertinents pour caractériser les rubriques étaient NOM-ADJ/ADJ-NOM et NOM-PREP-NOM. Je me baserai sur les résultats obtenus par l'extraction via feuille XSL depuis les fichiers TreeTagger pour choisir les termes à représenter graphiquement. C'est également à partir de ces données (non classées et non comptées) que je génèrerai des graphes. J'ai essayé de choisir des termes qui pouvaient révéler les caractéristiques des rubriques et/ou les contraster entre elles. A chaque fois, j'ai lancé le programme depuis mon Cygwin grâce à la commande qui suit :

./patron2graphe-2.exe "ISO-8859-1" NOM-PREP-NOM-TT_3208_entier.txt motif.txt

Bien entendu, le fichier contenant les patrons extraits changeait à chaque fois. Pour le motif, j'ai directement modifié le fichier. Il contenait tout du long une seule ligne avec inscrit "MOTIF=" suivi de mon motif. Pour voir les images présentées ci-dessous en taille réelle, cliquez dessus.

Visualisation pour les patrons NOM-PREP-NOM

Les fichiers résultats d'extraction dans leur intégralité à partir desquels la visualisation a été réalisée sont disponibles ci-dessous.

Après avoir observé les résultats d'extraction, j'ai décidé de faire des graphes à partir du motif "de Paris" pour les trois rubriques. Cette séquence était présente dans les trois extractions et j'ai pensé qu'il serait intéressant de voir à quoi elle était associée, selon la rubrique observée.

Pour la rubrique "A la Une", on voit bien que "de Paris" est très représenté. Ce motif est associé à une grande diversité de termes, pour la plupart n'apparaissant qu'une seule fois (à gauche de l'image). On retrouve des actualités culturelles avec "Opéra", "Zénith" etc. ; des actualités politiques ou judiciaires avec "parquet", "barreau" etc. Une diversité cohérente avec la pluridisciplinarité présente à la une d'un journal.

Le motif est ici beaucoup moins représenté, ce qui est une fois encore cohérent avec la rubrique étudiée. Ce n'est pas surprenant que la partie "Internationale" du journal parle moins de Paris. Les termes qui lui sont associés sont par ailleurs à vocation plutôt internationale, comme "géopolitique", "Bourse" et surtout la référence majoritaire aux "accords" de Paris.

Pour cette dernière rubrique, on constate à nouveau que le motif "de Paris", s'il est un peu moins présent que dans 3208, est assez représentatif, de par ses associations. Les termes qui lui sont le plus accollés sont "Opéra" et "Philarmonie", mais on trouve également "Conservatoire" et "Zénith", ce qui est tout à fait en accord avec la dimension culturelle de la rubrique.

Un autre motif grâce auquel j'ai voulu contraster les rubriques "International" et "A la Une" est "de France", pour les mêmes raison que "de Paris".

On observe à nouveau une très grande diversité de termes associés à "de France" pour la rubrique 3208. Cette fois, tout le volet sportif apparait également avec des mots comme "champion.ne.s", "équipe" ou "Tour" (pour 'Tour de France'). On est une fois encore face à la très grande diversité de sujets caractéristique de la une du journal.

Comme pour "de Paris", on trouve moins d'occurrences du motif "de France" dans 3210 que dans 3208. De plus, les termes qui lui sont associés sont beaucoup moins diversifiés, même si on note la présence du "Tour" pour 'Tour de France' et du "stade".

J'ai réalisé quatres autres graphiques que je ne présenterai pas en détails. Le premier est un graphe pour la rubrique 3246 avec le motif 'film', qui montre de nombreux liens (sans surprise puisqu'il s'agit de la rubrique "Culture"). Le deuxième est graphe pour la rubrique 3210 avec le motif 'attentat'. Les deux derniers sont un graphe pour la rubrique 3208 avec le motif "président" et un graphe pour la rubrique 3210 avec le même motif. Ces deux graphes soulignent encore la différence entre "A la Une" et "International" : les mêmes thèmes peuvent être abordés, mais 3210 sera beaucoup moins centré sur la France.

Visualisation pour les patrons NOM-ADJ/ADJ-NOM

Les fichiers résultats d'extraction dans leur intégralité à partir desquels la visualisation a été réalisée sont disponibles ci-dessous.

Pour cette seconde étape de visualisation, j'ai procédé de la même manière que précédemment, c'est-à-dire que j'ai essayer de prendre des termes qui puissent à la fois distinguer et caractériser les rubriques. Le premier terme que j'ai voulu regarder pour contraster les données est "festival" (qui a renvoyé en résultat certains dérivés comme "festivaliers").

Dans la rubrique 3246, le motif "festival" est évidemment très représenté, avec une grande diversité d'adjectifs qualifiant sa nationalité ("anglais", "suisse", "parisien" etc.) ou son thème ("lyrique", "afroféministe" etc.) par exemple.

Pour la rubrique "A la Une", les résultats sont beaucoup plus chétifs. Le peu d'occurrences sont accompagnées, généralement, d'adjectifs concernant la nationalité du festival.

Dans 3210, "festival" est encore moins présent que dans 3208, ce qui n'est pas étonnant. Les seuls adjectifs présents sont "suédois", "spectaculaire" et "célèbre". Ce sont probablement les qualificatifs minimums qu'un festival doit arborer s'il veut se retrouver dans la rubrique "International"...

Un autre motif, plus intéressant à étudier pour 3208 et 3210 est "élection.s".

Si "élection.s" se trouve associé à une grande diversité d'adjectifs, c'est de loin la séquence "élection présidentielle" qui domine dans le rubrique 3208. Ce qui est on ne peut plus cohérent avec le contexte de l'année 2017.

Dans 3210, "élection présidentielle" domine aussi, mais beaucoup moins largement (58 contre 112 pour 3208). Quelques nouvelles nationalités font également leur apparition comme "néerlandaise" et "kenyane", ce qui est pertinent pour la rubrique "International".

Là aussi, j'ai réalisé un autre graphe que je ne détaillerai pas. Il s'agit d'un graphe pour 3246 avec le motif 'film' qui montre encore plus de relations que celui effectué sur les patrons NOM-PREP-NOM.

Une visualisation plus claire ?

L'intérêt majeur de la visualisation est de rendre plus clairs, plus directs les résultats. Quand on compare les graphes de "Festival" dans les différentes rubriques, par exemple, on peut deviner sans soucis quel est celui de la rubrique culturelle. Cependant, pour que la visualisation soit efficace, il faut choisir les bons termes : ils doivent être suffisamment fréquents pour que les résultats soient intéressants à analyser, mais également suffisamment spécifiques pour que le graphe reste lisible et ne soit pas surchargé d'associations.

Il ne faut pas non plus oublier que les termes ont été choisis justement parce que je souhaitais démontrer une différence entre les rubriques. En choisissant d'autres termes, j'aurais très bien pu montrer que les différences entre les rubriques étaient très minimes. Par ailleurs, la qualité des données initiales a une grande importance : une mauvaise segmentation, une mauvaise annotation et une mauvaise extraction rendent les données quasiment inexploitable (dans les cas extrêmes).