Boîte à Outil 4
Objectif: réalisation de graphes à partir des données construites à l'issue de la BàO3.
Pour réaliser ces graphes, on a recours à un programme, patron2graphe.exe (télécharger),
qu'on lance en ligne de commande. Pour faire fonctionner ce programme, on indique l'encodage. Puis on a besoin des données construites à l'issu de la BàO3, c'est-à-dire
d'un fichier texte avec la liste des patrons que l'on veut,
par exemple NC-ADJ (une liste par patron, on ne doit pas mélanger dans une seule liste NC-ADJ, DET-NC-DET-NC etc. comme on l'avait fait pour extraire les patrons
à partir d'un programme perl) et d'un fichier texte avec le motif que l'on veut dont la syntaxe est: MOTIF=président, si le motif que l'on souhaite mettre en lumière est le terme "président". La commande sur notre terminal ressemblera donc
à ça: ./patron2graphe.exe "utf-8" liste_patrons_bao3.txt motif.txt
Pour choisir les motifs à traiter, on exécute une commande bash sur notre terminal afin de savoir quels sont les termes les plus récurrents
dans la liste des patrons des rubriques Sports et Sciences:
Sports(3242):
Afficher l'image
Afficher l'image
Sciences(3244):
Afficher l'image
Afficher l'image
On s'est ensuite dit qu'on allait prendre les termes les plus récurrents mais ce ne fut pas une bonne idée car les graphes étaient un peu trop brouillons et incompréhensibles à l'image de celui-ci:
Afficher l'image
On s'est alors dirigé vers des termes un peu moins récurrents. Si on prend la liste des NOM-ADJ de la rubrique Sports (3242) qu'on a extrait grâce à une feuille de style XSLT (télécharger)
appliquée au fichier Talismane au format XML, on obtient la liste suivante: télécharger.
On précise dans notre fichier contenant le motif qu'on veut observer: MOTIF=\bfootball\b, ce sera donc le terme "football". Puis on éxécute la commande mentionnée plus haut sur notre terminal:
./patron2graphe.exe "utf-8" NC-ADJ-tal-3242.txt motif-utf8.txt. Voici le résultat obtenu:
Afficher l'image
On constate que les adjectifs les plus souvent utilisés avec le terme football sont "professionnel", "français" et "américain" ce qui ne nous surprend pas pour les deux premiers mais
un peu plus pour l'adjectif "américain" vu que ce n'est pas un sport très développé en France et en Europe en général. On constate aussi que l'adjectif "masculin" apparaît une seule
fois au même titre que l'adjectif "féminin". On peut en déduire, de manière mesurée tout de même, une évolution de l'engouement pour le football féminin.
Afficher l'image
Lorsque le motif est le terme "victoire", on voit que l'adjectif le plus représenté est "française", corroboré par un autre adjectif allant dans le même sens et qui est "tricolore".
Ceci à une explication plutôt simple et évidente: c'est l'équipe de France qui a gagné la coupe du monde de la FIFA en 2018, vingt ans après l'avoir remporté pour la première fois de
son histoire, d'où cette récurrence dans la rubrique Sports du journal Le Monde en 2018.
Si on prend la liste des NOM-ADJ de la rubrique Sciences (3244) qu'on a extrait grâce à la même feuille de style XSLT appliquée au fichier Talismane au format XML, on obtient la liste suivante: télécharger.
.
On précise dans notre fichier contenant le motif celui qu'on veut analyser: MOTIF=\bécologique\b, ce sera donc le terme "écologique". On éxécute encore une fois la commande sur notre terminal:
./patron2graphe.exe "utf-8" NC-ADJ-tal-3244.txt motif-utf8.txt. Voilà le résultat obtenu:
Afficher l'image
On remarque que le nom qualifié par l'adjectif "écologique" est "transition" sans commune mesure avec 45 apparitions. Ce nombre important par rapport aux autres indiquent une certaine importance de la question
de la transition écologique dans la presse française, du moins dans la rubrique Sciences du jounal Le Monde. Il serait intéressant de comparer ce nombre avec celui des années précédentes afin d'éxaminer l'évolution de
la question et la croissance de son importance au fil du temps ou non. Force est de constater que les autres noms qualifiés par l'adjectif "écologique" sont pour la plupart liés à l'urgence de la situation écologique mondiale
avec "urgence", "mémoire", "désastre", "conscience", "impact", défi", "situation", "catastrophe", "vérité", "enjeu" et "fardeau".
Afficher l'image
Si on choisit "français" comme motif, on a beaucoup plus de résultats. Nous n'en retiendrons qu'un qui sort un peu du lot, c'est le terme "camemberts".