title

Projet Multilingue des Mots sur le Web

Phase 2 : Les Nuages


La deuxième étape du projet est l'analyse linguistique. A partir des fichiers « contextes-globaux.txt » et « dumps-globaux.txt » dans chaque langue, nous avons analysé les contextes du mot américanisation et l'usage des termes associés.

Les nuages de mots offrent une représentation visuelle des contextes fondée sur la fréquence des mots dans un texte. Ils nous permettent de voir quels mots apparaissent le plus souvent dans un contexte.

Il existe plusieurs outils sur Internet à notre disposition. Nous travaillons avec WordItOut et Wordle, qui permettent de copier-coller du texte pour créer les nuages.

Chaque outil dispose de paramètres de traitement de texte (par exemple pour enlever les mots vides) et de paramètres de formatage.

WordItOut !

Paramètres de texte :

WordItOut permet d'ignorer certains mots vides. Ces mots, souvent grammaticaux, ont tendance à apparaître très souvent dans les textes et n'apportent pas d'information pertinente à notre analyse linguistique. Il est important de les enlever pour analyser uniquement les contextes qui nous intéressent. La liste de mots par défaut est en anglais (a also am an and are aren't as at be been but by can can't cannot...). Il faut évidemment changer cette liste pour contenir les mots vides du français et du grec quand nous analyserons des textes écrits dans ces langues. Les autres paramètres sont la suppression des symboles de ponctuation, le remplacement de certains caractères (~ et _) par un espace insécable et la possibilité de spécifier le nombre de lettres minimum pour un mot.

Paramètres pour la liste de mots :

Ce sont les paramètres relatifs au texte entré. Il est possible de choisir le nombre d'entrées dans le nuage, le nombre d'occurrences minimum pour qu'un mot apparaisse dans le nuage, la casse et l'ordre des mots dans la liste des mots.

Paramètres du nuage de mots :

Puisqu'il s'agit d'une représentation visuelle, il y a bien sûr des paramètres relatifs au formatage du nuage : les couleurs, les polices, les marges et les tailles proportionnelles des mots. Ce dernier peut être important pour rendre le nuage plus lisible s'il existe un grand écart entre les mots les plus et les moins fréquents.

A partir des fichiers Contextes-Globaux.txt :

Anglais Britannique :

WordItOutBashGB

Anglais Américain :

WordItOutBashUSA

Français :

DumpWordItOutBashFR

Grec :

WordItOutBashGr

A partir des fichiers Dump-Global.txt :

Anglais Britannique :

DumpWordItOutBashGB

Anglais Américain :

DumpWordItOutBashUSA
Wordle

Wordle offre plus de choix de formatage et supporte plus de langues. En sélectionnant la langue du texte parmi celles dans la liste, Wordle enlève automatiquement les mots vides. Il dispose aussi de paramètres permettant d'enlever les signes de ponctuations, les chiffres et de gérer les différences de casse.

Les choix de formatage sont nombreux : les couleurs, les polices et l'orientation du texte, ainsi que la forme que prend le nuage. Les résultats ne sont pas toujours très lisibles pour faire une analyse linguistique, mais les options sont plus esthétiques.

Anglais Britannique :

WordItOutBashGB

Anglais Américain :

WordItOutBashUSA

Français :

WordleBashFr

Grec :

WordleBashGr

Il fallait tricher pour rendre ce dernier nuage lisible. Wordle ne semble pas avoir de paramètre qui permette de modifier la relation entre la fréquence des mots et la taille du texte. Un grand écart entre le nombre d'occurrences du mot « αμερικανοποίηση » et des autres mots avait pour résultat « αμερικανοποίηση » en très grand et les autres mots illisiblement petits. Il fallait supprimer quelques occurrences de ce mot prédominant pour rendre le nuage un peu plus lisible.

Bilan

Anglais Britannique :

Les mots les plus fréquents dans le nuage sont « americanisation », « american », « americanisms » et « anti-americanism ». Rien d'étonnant puisque nous avons cherché un motif contenant la plupart de ces mots. Les autres mots qui ressortent visuellement sont « british » et « english », ce qui suggère que les contextes sont plutôt internes à la Grande Bretagne ; la presse a plutôt tendance à parler de l'américanisation dans un contexte où la culture américaine a une certaine influence sur la culture britannique. Le mot « french » est très présent aussi, ce qui suggère une tendance à parler de l'influence de la culture américaine sur la culture française aussi. Nous remarquons que certains domaines sont mis en évidence, tels que « language » (correspondant peut-être à « English »), « words » « politics », « political », « education ». Le fait que la presse anglaise se focalise sur le langage était une des hypothèses en début de projet. Nous nous attendions à rencontrer des contextes où les britanniques parlent de l'influence de l'américain sur la langue, puisque la langue anglaise est commune aux deux pays et que notre propre expérience le suggère. Un autre mot important est « globalisation ». Il faudrait avoir une analyse plus précise, mais nous pouvons souvent remarquer ce lien entre l'américanisation et la globalisation dans les articles étudiés, même si le nuage ne décrit pas ce lien avec évidence.

Par rapport à l'attitude envers l'américanisation, le nuage nous dit peu de choses. Il existe beaucoup de mots recurrents dans le texte, qui ne nous apportent pas plus d'informations (ex: "here", "own", "people", "means"). Cependant, nous pouvons repérer au moins deux mots qui pourraient être associés à une attitude particulière. Ce sont « good » et « creeping ». Ils montrent des attitudes ambivalentes ; tandis que « good » suggère une attitude positive, « creeping », qui est apparu dans les 80 mots les plus fréquents - il n'est pourtant pas un mot très commun - suggère une attitude méfiante. « Creeping » est un adjectif lié au verbe « creep » et a pour signification quelque chose qui s'avance discrètement et sûrement, mais a une nuance négative lié au fait que ce ne soit pas voulu. Il faudrait attendre l'analyse du trameur pour voir dans quels contextes précis ce mot apparaît.

Anglais Américain :

Les deux mots les plus fréquents sont « Americanization » (69 fois) et « American » (48 fois). Encore une fois, ceci n'est pas étonnant. Ainsi nous voyons 6 mots contenant la racine « american-» dans les 10 premiers mots les plus fréquents. Les autres mots qui ressortent le plus visuellement sont « culture » (28 fois), « globalization » (17 fois), « English » (12 fois), "« British », « immigrants » (12 fois), « world » (14 fois). Comme remarqué au début du projet, il existe plusieurs significations pour le mot américanisation et ce corpus américain montre bien les deux contextes :

1) L'intégration dans la culture américaine à l'intérieur des Etats-Unis. La présence de mots tels que « immigration », « Muslim », « Whites », « ethnic », « traditions » etc. montrent un usage du terme américanisation dans un contexte d'intégration dans la société américaine. Nous pouvons deviner que les mots tels que « healthcare », « school », « identity » sont aussi liés à ce concept, mais ces termes peuvent être ambigus selon le contexte. Le nuage ne nous permet pas de voir les contextes précis des mots individuels, il faudrait donc attendre une analyse plus précise afin de confirmer l'usage de ces mots.

2) L'influence de la culture américaine en dehors des Etats-Unis. Comme ci-dessus, nous ne pouvons pas être sûres des contextes exacts pour l'instant. « Identity », « tradition » et même « culture » pourraient correspondre au contexte d'integation aussi bien que celui d'influence. Les mots « English » (12 fois) et « British » (7 fois) pourraient plus correspondre à ce dernier.

Le nuage de mots à partir du dump global des sites est moins pointu comme analyse, mais pourrait être intéressant pour voir le contexte plus élargi des articles. Le problème est que nous ne pouvons pas être sûres que « sports », « politics », « culture » ne correspondent pas aux onglets ou aux liens intérieurs du site de presse au lieu de préciser les contextes contenant le motif. Il faudrait procéder à une analyse qui permet d'analyser les phrases au lieu des mots indépendants.

Français :

Les deux mots les plus fréquents dans le nuage sont « américanisation » et « anti-américanisme », ce qui reflète bien la thématique choisie pour le projet. Les autres mots qui ressortent visuellement sont « Etats-Unis », « France », « politique » et « culture ». Ces mots donnent une idée du contexte d’où ils ont été tirés. Nous pouvons donc conclure que la presse française parle plutôt de l’américanisation dans un contexte culturel où se reflète la dominance de la puissance américaine sur la plupart des pays du monde. Ceci montre également l’influence de la culture américaine sur la culture française.

De même, nous pouvons voir des mots tels que « contre », « plus » et « peu » qui viennent soutenir l’hypothèse faite sur la place de Etats-Unis dans le monde. Malgré le fait que ces mots ne jouent pas un grand rôle sur le plan sémantique, ils peuvent, bien évidemment, nous donner une idée sur l’effet de l’américanisation au niveau mondial.

D’ailleurs, nous pouvons constater que les domaines traités dans les pages web choisies au début du projet sont plutôt le domaine politique, économique et culturel. Cela reflète bien les domaines les plus touchés par la dominance américaine sur les divers pays du monde. En outre, ces mots illustrent l’attitude de la presse française vis-à-vis de l’américanisation ou de l’imposition du modèle américain. Il est évident que l’analyse du nuage ne montre pas clairement cette attitude, mais nous pouvons conclure que le regard envers l’américanisation est mitigé. Certains estiment que l’influence américaine est moindre (« peu ») tandis que d’autres voient en elle une sorte de dominance (« plus ») plutôt négative (« contre »).

Il faudrait ainsi mettre en lumière le lien entre l’américanisation et la mondialisation pour pouvoir analyser profondément l’effet de ce premier phénomène. Toutefois, le nuage engendré par les contextes récupérés ne montre pas clairement cette relation.

Enfin, il existe des mots fréquents dans le texte, à l’instar de « être », « sans » et « dire ». Ces mots ne sont pas porteurs d’informations (dans notre cas) et ne nous aident pas à approfondir notre analyse.

Grec :

Les nuages sur la base des contextes extraits permettent de voir que le contexte principal de l'américanisation dans la presse grecque est politique. Le mot le plus fréquent dans le texte est « αμερικανοποίηση » (45 fois), suivi de « αμερικανοποίησης » (6 fois). La raison pour l'apparence de plusieurs mots pour « américanisation » vient du fait que le grec a un système flexionnel important qui marque les cas grammaticaux pour les noms. Cette situation se répète avec l'anglais et le français où le mot « am.ricanism(e) » est repéré séparément de son équivalent pluriel « am.ricanism(e)s ».

Les domaines de l'utilisation du motif sont liés à la politique et à l'entreprise. Nous pouvons remarquer les mots « Αφγανιστάν » (Afghanistan), « πολιτικής » (politique), « επιχειρήσεων » (entreprise).

Comme dans les autres langues, le terme « παγκοσμιοποίηση » (globalisation/mondialisation) apparaît aussi dans le nuage, ce qui montre la même association de l'américanisation avec le concept de la globalisation.

D'autres possibilités :

Il existe d'autres logiciels qui permettent de créer des nuages, quelques uns très créatifs. Voilà quelques nuages créés à partir de tagxedo :

L'Anglais Britannique :

TagxedoGB

L'Anglais Américain :

tagxedoUSA

Le Français :

tagxedoFR

Le Grec :

tagxedoGR