Boîte à Outil 4

Objectif: réalisation de graphes à partir des données construites à l'issue de la BàO3.

Pour réaliser ces graphes, on a recours à un programme, patron2graphe.exe (télécharger), qu'on lance en ligne de commande. Pour faire fonctionner ce programme, on indique l'encodage. Puis on a besoin des données construites à l'issu de la BàO3, c'est-à-dire d'un fichier texte avec la liste des patrons que l'on veut, par exemple NC-ADJ (une liste par patron, on ne doit pas mélanger dans une seule liste NC-ADJ, DET-NC-DET-NC etc. comme on l'avait fait pour extraire les patrons à partir d'un programme perl) et d'un fichier texte avec le motif que l'on veut dont la syntaxe est: MOTIF=président, si le motif que l'on souhaite mettre en lumière est le terme "président". La commande sur notre terminal ressemblera donc à ça: ./patron2graphe.exe "utf-8" liste_patrons_bao3.txt motif.txt

Pour choisir les motifs à traiter, on exécute une commande bash sur notre terminal afin de savoir quels sont les termes les plus récurrents dans la liste des patrons des rubriques Sports et Sciences:

Sports(3242): Afficher l'image

Afficher l'image


Sciences(3244): Afficher l'image

Afficher l'image


On s'est ensuite dit qu'on allait prendre les termes les plus récurrents mais ce ne fut pas une bonne idée car les graphes étaient un peu trop brouillons et incompréhensibles à l'image de celui-ci: Afficher l'image


On s'est alors dirigé vers des termes un peu moins récurrents. Si on prend la liste des NOM-ADJ de la rubrique Sports (3242) qu'on a extrait grâce à une feuille de style XSLT (télécharger) appliquée au fichier Talismane au format XML, on obtient la liste suivante: télécharger.
On précise dans notre fichier contenant le motif qu'on veut observer: MOTIF=\bfootball\b, ce sera donc le terme "football". Puis on éxécute la commande mentionnée plus haut sur notre terminal: ./patron2graphe.exe "utf-8" NC-ADJ-tal-3242.txt motif-utf8.txt. Voici le résultat obtenu: Afficher l'image

On constate que les adjectifs les plus souvent utilisés avec le terme football sont "professionnel", "français" et "américain" ce qui ne nous surprend pas pour les deux premiers mais un peu plus pour l'adjectif "américain" vu que ce n'est pas un sport très développé en France et en Europe en général. On constate aussi que l'adjectif "masculin" apparaît une seule fois au même titre que l'adjectif "féminin". On peut en déduire, de manière mesurée tout de même, une évolution de l'engouement pour le football féminin.

Afficher l'image

Lorsque le motif est le terme "victoire", on voit que l'adjectif le plus représenté est "française", corroboré par un autre adjectif allant dans le même sens et qui est "tricolore". Ceci à une explication plutôt simple et évidente: c'est l'équipe de France qui a gagné la coupe du monde de la FIFA en 2018, vingt ans après l'avoir remporté pour la première fois de son histoire, d'où cette récurrence dans la rubrique Sports du journal Le Monde en 2018.


Si on prend la liste des NOM-ADJ de la rubrique Sciences (3244) qu'on a extrait grâce à la même feuille de style XSLT appliquée au fichier Talismane au format XML, on obtient la liste suivante: télécharger.
. On précise dans notre fichier contenant le motif celui qu'on veut analyser: MOTIF=\bécologique\b, ce sera donc le terme "écologique". On éxécute encore une fois la commande sur notre terminal: ./patron2graphe.exe "utf-8" NC-ADJ-tal-3244.txt motif-utf8.txt. Voilà le résultat obtenu: Afficher l'image

On remarque que le nom qualifié par l'adjectif "écologique" est "transition" sans commune mesure avec 45 apparitions. Ce nombre important par rapport aux autres indiquent une certaine importance de la question de la transition écologique dans la presse française, du moins dans la rubrique Sciences du jounal Le Monde. Il serait intéressant de comparer ce nombre avec celui des années précédentes afin d'éxaminer l'évolution de la question et la croissance de son importance au fil du temps ou non. Force est de constater que les autres noms qualifiés par l'adjectif "écologique" sont pour la plupart liés à l'urgence de la situation écologique mondiale avec "urgence", "mémoire", "désastre", "conscience", "impact", défi", "situation", "catastrophe", "vérité", "enjeu" et "fardeau". Afficher l'image

Si on choisit "français" comme motif, on a beaucoup plus de résultats. Nous n'en retiendrons qu'un qui sort un peu du lot, c'est le terme "camemberts".