Les Nuages de mots

Après avoir fait toutes nos recherches pour pouvoir produire ces tableaux, il faut bien les utiliser !

Dans un premier temps nous allons faire des nuages de mots. Pour cela, nous allons utiliser nos dumps contextes globaux pour pouvoir créer un nuage de mots et donc voir quels mots ressortent le plus. Plus le mot est gros dans le nuage, plus le nombre de fois où il apparait est important.

Pour cela, nous avons à notre disposition les trois sites suivant :

-Wordle

-Tag Cloud Generator

-WordItOut

Parmi ces trois sites, nous avons préféré travailler sur Wordle, et ce pour plusieurs raisons.

Tout d’abord Tag Cloud Generator ne fonctionne qu’avec une URL. Nous avons bien nos URLs dans notre tableau, mais nous avons aussi un problème d’affichage de caractères qui va avec, ce qui nous donne un nuage qui n’est absolument pas viable. D'ailleurs, on le voit très bien sur ce nuage:

nuage

Il nous reste donc Worditout et Wordle. Les deux sont relativement intéressants au niveau de graphisme puisque nous avons un large choix de design pour générer nos nuages, mais Worditout n’a pas la fonction qui nous permet d’enlever les mots vides, c’est-à-dire les mots qui n’apportent pas un sens particulier. Du coup, nous allons retrouver « de » en mot le plus présent dans nos nuages en français et en espagnol par exemple, mais ça n’a rien de surprenant puisque c’est le mot le plus présent dans ces deux langues !

nuagenuage

{Nuages de mots respectivement en espagnol et en français avec les mots vides}

nuagenuage

{Nuages de mots respectivement en anglais et en finnois avec les mots vides}

Au final, Wordle semble le plus adapté, aussi bien au niveau de l’affichage des caractères, qu’au niveau de la suppression des mots vides.

nuagenuage

{Nuages de mots en anglais sans les mots vides}

nuagenuage

{Nuages de mots en finnois sans les mots vides}

nuagenuage

{Nuages de mots en français sans les mots vides}

nuagenuage

{Nuages de mots en espagnol sans les mots vides}

Par contre, il faut bien comprendre la limite de cet outil : un nuage de mots ne fait que retranscrire le nombre d’occurrence et ne prend absolument pas en compte les liens qui peuvent exister. Dans notre cas, on peut le voir avec des exemples tels que « la cité radieuse », « les quartiers nord », ou encore « le vieux port », qui ne sont pas des mots à prendre séparément, mais bien des expressions à considérer dans leur globalité.

Les Treeclouds

Les treeclouds sont des mots disposer sous forme d’arbre et qui sont regroupés par leur proximité dans le texte. En utilisant le logiciel sur ce site (ProgTreeCloud.php), on a également une indication sur le nombre d’occurrences dans le texte grâce à la taille des mots dans le treecloud. Cette précision enfin faite, nous pouvons passer à l'analyse de nos résultats.

Les Treeclouds en anglais

En anglais, les mots les plus proches de Marseille sont des mots vides, cela veut dire que ça ne nous donne pas d’indication particulière. A noté d’ailleurs qu’au début nous pensions que le nom de notre ville s’écrivait avec un « s » (donc « Marseilles »), mais le nombre d’occurrence est tellement faible que le logiciel ne mentionne même pas cette orthographe !

On note que l’on a deux pôles plus intéressants, tout d’abord celui avec les mots « year », « capital », puis avec « culture » ce qui est tout à fait logique car Marseille a été capitale européenne de la culture. On a également deux pôles comprenant les mots « crime », « drug », et « port ». Ce qui prouve bien que les pays anglophones sont conscients des problèmes d'insécurité de la ville.

nuage

Les Treeclouds en français

En français, l’analyse est différente. Le pôle le plus important est celui qui se trouve en bas à droite de notre treecloud. Il porte majoritairement sur la politique avec des noms tel que « Jean-Claude Gaudin », « Mennucci », ou encore « socialiste » et « politique », ce qui est normal puisque que les élections municipales approchent pour la France et que cette ville est un point stratégique pour beaucoup de parties politiques. C’est un thème que l’on ne va trouver que dans le corpus français, mais après tout c’est normal : quel autre pays que la France se soucierait de nos élections municipales ?!

Le petit nuage en bas au centre est intéressant car il résout notre problème des nuages précédent : nous avons bien les mots « quartiers » et « nord » ensemble, ce qui nous prouve bien qu’il y a un lien !

Puis dans le nuage en haut à droite, on retrouve l’information sur Marseille en tant que Capitale Européenne, et enfin dans le nuage en haut à droite nous avons la présence du mot « Olympique », pour l’équipe de football de la ville.

nuage

Ainsi on se rend déjà compte que les préoccupations des uns ne sont pas celles des autres, et cette analyse persiste sur les mots des treeclouds en espagnol et en finnois.

Les Treeclouds en espganol

En effet en espagnol, la priorité va à l’Olympique de Marseille (dans le nuage en bas à droite avec le mot « olympique », très proche du français).

Puis l’autre priorité va à la situation de Marseille en tant que Capitale Européenne de la Culture que l’on comprends par des mots tels que « ciudad » (ville), « cultura » (culture), « capital » ou encore « inauguración » (inauguration). Et là, surprise ! On retrouve un mot que l’on ne trouve nulle part ailleurs qui est « Kosice », le nom de la deuxième plus grande ville de Slovaquie et qui partageait le titre de capitale européenne de la culture avec Marseille en 2013, et la presse espagnol est la seule parmi toutes nos langues à mentionner ce mot !

Et plus grande surprise encore : même si le pays est bien plus proche de la ville que la Grande Bretagne ou encore l’Irlande (nous avons utilisé des articles de presse venant de ces deux pays), la presse espagnol ne mentionne absolument pas les problèmes de drogue, de violence ou de meurtre !

nuage

Les Treeclouds en finnois

Enfin pour le finnois, on remarque tout d'abord que la plupart des mots colorés en bleu tels que « viime » (dernier,ère), « myös » (aussi) et « jo » (déjà) sont des mots « vides ». Pour cette raison, on peut d'ores et déjà les éliminer de notre analyse.

Ensuite, on observe que les termes « marseille », « marseillen »(de Marseille), « ranskan »(de France) et « marseillessa »(à Marseille) sont les plus colorés et les plus volumineux parmi les termes du treecloud , ce qui atteste de leur forte présence dans l'ensemble de nos articles en finnois et ce qui corrobore le sujet de notre projet.

Paradoxalement, les termes « kaupungissa »(en ville), « euroopan »(d'Europe) et « kaupungin » (de la ville) sont situés chacun sur des branches distinctes mais en même temps à l'opposé avec une certaine distance des termes alors qu'on suppose qu'ils devraient être associés les uns aux autres. Cela peut s'expliquer par le fait que les journalistes ont probablement dû utiliser des tournures de phrases pour faire référence à la ville de Marseille sans toutefois répéter le nom de celle-ci, ce qui montre un élément du fonctionnement de la langue finnoise.

Enfin, arrêtons-nous sur le terme « euroopan » (européen). En effet, nous ne pouvons pas déterminer précisément s’il fait référence aux articles traitant de Marseille en tant que capitale européenne de la culture, ou aux articles traitant de Marseille au niveau du sport à l'échelle européenne. Néanmoins, nous avons tout de même remarqué que les articles relatant de Marseille sont en plus grand nombre lorsqu'il s'agit du sport, ce qui nous amène à penser que ce terme a de plus grandes chances d'être liée au domaine sportif.

nuage

En conclusion, nous pouvons dire que ces treeclouds sont déjà plus précis que ce que pouvait nous apporter les nuages de mots que nous avons fait précédemment, mais que l’on peut encore améliorer notre analyse grâce au trameur, et ça tombe bien, c’est l’ultime étape de nos recherches, et ça se passe ici ou dans l'onglet trameur!

Galerie d'images

nuagenuagenuage
nuagenuagenuage
nuagenuageprobleme d'aspiration de pages