Objectif : création de graphes de mots
La dernière étape du projet consiste à représenter les listes de mots créées dans la BàO précédente en graphes, grâce au logiciel
patron2graphe.exe, qui est un programme propre à l'Université Paris 3. Simple à mettre en oeuvre, il n'en est pas moins puissant !
Patron2graph est un module du Trameur, et fonctionne sous Windows. Etant des inconditionnelles de Linux, nous l'avons lancé avec l'émulation Wine, directement à partir du terminal Linux.
Le logiciel prend en arguments l'encodage du fichier à analyser, ledit fichier, et en option un fichier contenant le motif à rechercher.
Représentation en graphes
Si on ne met aucun motif en argument, le programme affiche un graphe de l'ensemble des mots du texte, donc voici un aperçu pour les résultats de la rubrique "Cinéma" :
Voici à présent quelques exemples avec des fichiers de motifs :
- MOTIF=[Pp]oliti.+
- MOTIF=[Aa]méric.+
Sans surprise, l'Amérique est présente dans tous les métiers du cinéma.
- MOTIF=[Ff]ilm.+
- MOTIF=[Ff]emme.+
- Le MOTIF étant une expression régulière, on peut développer en fonction du domaine :
MOTIF=((A|a)ct(eur|rice)s?)|((C|c)omédien(ne)?s?)
En analysant ce dernier graphe, on peut se demander pourquoi, dans les pages Cinéma d'un journal français, c'est la nationalité américaine (11 fois sur 18 côté masculin, 4 fois sur 9 côté féminin) qui domine au voisinage des mots "acteur" et "comédien". Au passage, on aura aussi vérifié la loi de Bechdel, puisque la répartition par genre des acteurs est de deux hommes pour une femme.
En fait, plus on avance, et plus on perçoit la richesse des analyses possibles avec les quelques outils appris pendant ce semestre. Quel dommage que nos journées n'aient que 24h !
← Page précédente Page suivante →