Outil 4 : Graphe de mots


Présentation

1. Tâche

Cette dernière tâche consiste à faire des graphes de mots grâce à la liste de syntagmes récupérée dans la BAO3. Les graphes de mots permettent de compter et visualiser les contextes morphosyntaxiques d'un ou plusieurs mots. Ce qui est particulièrement utile pour interpréter les résultats. Pour démonstration nous allons mettre en perspective les noms communs "homme" et "femme". Nous observerons 4 patrons pour chaque nom NC ADJ, ADJ NC, NC P NC ADJ, ADJ NC P NC. Ainsi nous essayons d'observer une différence de qualification de ces noms. Si elle existe, alors quelle est elle ?


2. Données

Après observation nous remarquons que Talismane produit la meilleure qualité d'annotation. Nous choisissons donc sa sortie pour cette tâche. On reprend donc le fichier produit par notre programme Python. Voici un échantillon du fichier du patron ADJ NC :


3. Outil utilisé

La génération de graphes de mots se fera avec patron2graphe.exe, un outil développé par Serge Fleury de l'Université Paris 3.

La commande SHELL suivante sera appliquée sur chaque fichier pour chaque motif.

./patron2graphe.exe 'utf8' adj_nc.txt motif.txt

Le fichier motif.txt contiendra le motif à traiter, "\bhomme" ou "\bfemme". Le "\b" est un délimiteur permettant de forcer le début de syntagme. Ainsi les mots comme "prud'homme" seront exclus.


Homme

Sur la liste NC ADJ
mot nombre d'occurrences pourcentage (sur 402 tokens)
fort 44 10.95%
politique 32 7.96%
blanc 22 5.47%
Sur la liste ADJ NC
mot nombre d'occurrences pourcentage (sur 406 tokens)
jeune 104 25.61%
premier 34 8.37%
seul 10 2.46%

D’abord, par rapport à la simplicité du patron, on constate que la diversité du vocabulaire est assez pauvre ( = 62 lemmes ). Pour un corpus aussi grand ( = 710401 tokens ) et un nom aussi commun nous sommes surpris d’obtenir si peu de résultats. On peut cependant faire quelques remarques. Même si on voit qu’un bon nombre d’adjectifs peuvent être utilisés, on va considérer que ceux ayant un nombre d’occurrences inférieur à 5 sont négligeables.

Pour le contexte gauche, le plus intéressant est que l’adjectif le plus utilisé pour qualifier le nom homme est « fort » avec 44 formes. Il est clair que cet adjectif, loin d’être neutre, envoie une image très positive. Le mot « politique » arrive en seconde position avec 31 formes. Sachant qu’un média généraliste se doit de communiquer les faits et les changements politiques il n’est pas très surprenant de voir ce genre de mot. De plus nous savons l’état de la parité homme-femme en politique. Nous nous attendons donc à ce que cet adjectif soit moins présent pour le mot « femme ».

Pour le contexte droit nous pouvons exclure tous les compteurs, ils sont bien considérés comme adjectifs mais ils ne nous apprennent aucune information intéressante. L’adjectif le plus récurrent est « jeune » avec 104 formes, il dépasse de loin tous les autres mots. On retiendra quand même « premier » avec 13 occurrences qui n’est pas toujours un mot neutre.


Sur la liste NC P NC ADJ
forme nombre d'occurrences pourcentage (sur 456 tokens)
d'affaires 41 * 2 = 82 17.98%
Sur la liste ADJ NC P NC
mot nombre d'occurrences pourcentage (sur 72 tokens)
jeune 11 15.28%
sulfureux 2 2.78%

Ces deux patrons ont été choisis afin d’observer les syntagmes de la forme « homme d’/de + NC + ADJ » et « ADJ + homme d’/de + NC ». Comme prévu nous obtenons bien les contextes de cette forme, en revanche les résultats ne sont pas intéressants. Pour le premier patron le mot le plus fréquent est « d’ + affaires ». Ainsi on rejoint la même réflexion que pour « politique ». Pour le second il n’y a pas de fait réellement notable.


Femme

Sur la liste NC ADJ
mot nombre d'occurrences pourcentage (sur 208 tokens)
noire 11 5.29%
politique 6 2.89%
Sur la liste ADJ NC
mot nombre d'occurrences pourcentage (sur 398 tokens)
jeune 104 26.13%
première 15 3.77%

Chaque adjectif est en très faible quantité, très peu dépasse 5 occurrences mais leur proportion est assez équilibrée.

Pour le contexte gauche on peut remarquer que parmi les adjectifs de couleur ou d’origine, « noire » est présent 11 fois alors que « blanche » ni est qu’une fois.

Pour le contexte droit tout comme pour « homme » nous retrouvons l’adjectif « jeune » en très grande quantité (104 fois). Ensuite vient « première » avec 15 occurrences. Le plus étonnant est qu’on retrouve quasiment la même quantité que pour le mot « homme » qui avait ces mêmes mots en 104 et 13 fois.


Sur la liste NC P NC ADJ
forme nombre d'occurrences pourcentage (sur 80 tokens)
agression sexuelle 4 * 2 = 8 10.00%
Sur la liste ADJ NC P NC

Il semblerait que tout comme pour le mot « homme » les syntagmes de la forme « femme d’/de + NC + ADJ » et « ADJ + femme d’/de + NC » soient trop rares pour espérer observer quelque chose d’intéressant. C'est encore plus vrai pour l'adjectif qui suit la préposition « d' », deux formes seulement sont présentes « agression sexuelle » et « origine somalienne ».


Conclusion

D’une manière générale, les résultats sont assez pauvres alors que ce corpus est relativement grand. Nous observons néanmoins quelques faits intéressants. D’abord l'adjectif « fort » est très présent pour qualifier le mot « homme » alors qu’il est totalement absent pour « femme ». Même si nous sommes sûrs qu’un journal tel que Le Monde s’efforce d’être le plus neutre possible sur la diffusion d’information, les lecteurs réguliers recevront une mise en valeur inconsciente de l’image de l’homme. Heureusement le faible nombre d’occurrences par rapport à la diffusion sur l’année n’aura que peu d’impact (contrairement à la publicité répétitive). La seconde grande différence concerne le mot « politique », qui est présent pour « homme » et non pour « femme ». Dans le même ordre d’idée, le même phénomène est observé pour le contexte « d’affaires ». Nous savons qu’il n’y a pas de parité homme-femme dans ces domaines, et notamment dans les très grandes personnalités. D’après nos résultats ce fait est vérifiable par le contenu du journal. Mais n’y a t-il seulement des « hommes » avec de très hautes fonctions ? Ou est-ce les seuls qui aiment faire parler d’eux ?

Si nous nous intéressons maintenant aux points communs, nous voyons que l’adjectif le plus fréquemment utilisé est « jeune » aussi bien pour « homme » que pour « femme ». Même si d’autres comme « seul », « vieil » ou encore « nouvel » sont présents et communs, leur proportion n'est clairement pas comparable avec « jeune ». Si nous réfléchissons, nous comprenons aisément que parmi les adultes, les plus jeunes sont les plus actifs et donc les annonces concerneront majoritairement cette catégorie. En revanche nous nous sommes étonnés à obtenir un total identique de 104 pour chaque mot. Ceci est d’autant plus étonnant que le corpus est relativement grand. Le mot « premier » est également aussi présent pour « homme » que pour « femme », ces deux parties auraient le même nombre de premières places ? Reste encore à savoir dans quels domaines ?

Merci d'avoir lu !

Retour au menu