A travers ce site nous vous présentons notre projet : élaborer un programme qui permet, grâce à des informations tirées du web, de répondre à notre problématique. La vision du nucléaire a-t-elle changé après la catastrophe de Fukushima ?

Nucléaire : vision d'hier et d'aujourd'hui

Un nuage de mots c'est quoi?


Selon Wikipédia : "Le nuage de mots-clefs (tag cloud en anglais) est une représentation visuelle des mots-clés (tags)les plus utilisés sur un site web. Généralement, les mots s'affichent dans des polices de caractères d'autant plus grandes qu'ils sont utilisés ou populaires."

Ces nuages vont permettre de répondre graphiquement à notre problématique. Les mots les plus gros seront ceux qui apparaissent logiquement le plus souvent dans le contexte de "nucléaire". Les nuages nous donneront une idée de l'évolution des collocations du mot nucléaire dans la période avant-après Fukushima.

Dans cette partie nous vous présentons 4 outils qui permettent de présenter visuellement des résultats mais de manière différente :
  • Nuages : outils en ligne
  • Tree Cloud
  • Tag Cloud Builder
  • Trameur
  • Nuages : Outils en ligne

    Nous avons testé pour vous Wordle et Tagxedo.

    Dans les logiciels en ligne, nous insérons les fichiers contextes globaux.

    Premier essai : les contextes anglais avec Tagxedo

    Avant Fukushima





    Après Fukushima



    Vue dynamique

    Deuxième essai : les contextes français avec Wordle :

    Avant Fukushima


    Après Fukushima




    Troisième essai : les contextes japonais avec Tagxedo

    Avant Fukushima




    Après Fukushima




    Remarques générales :

    On remarque que ces outils ne prennent pas en compte les mots de la même famille. "sortie" et "sortir" par exemple sont comptés comme deux mots différents alors qu'ils ont le même lexème. Il aurait été intéressant de les regrouper ensemble pour obtenir une fréquence plus élevée.
    Le constat est le même pour les mots avec et sans apostrophe :
    Exemple : "énergie" et "lénergie".
    Egalement pour les signes : Exemple : "UK" et "United" "Kingdom"

    Retour sur Wordle

    Wordle est très facile à utiliser. Il suffit de coller son texte dans l'espace prévu à cet effet ou taper une adresse URL dans la barre juste en dessous. Une fois le texte transmis, Wordle affiche un nuage de mots. Il est possible de changer la couleur, le sens d'écriture etc. Tout ce qui est attrait au design. Le plus intéressant est l'option l'onglet Language. Dedans nous trouvons plusieurs options utiles :

  • Guess case for each word : permet de ne pas prendre en compte la casse dans le décompte de la fréquence des mots
  • Remove common Xlangue words: permet de supprimer les mots communs dont une grande partie sont les mots-outils. Ces mots-outils ont un aspect syntaxique plus fort que sémantique.
    Exemple : les pronoms, les déterminants, les modaux en anglais...
    Ils ne sont pas pertinents pour l'analyse et au contraire, parasitent les résultats car leur fréquence est très élevée.

    Retour sur Tagxedo

    En plus des deux moyens que proposent Wordle pour soumettre du texte, Tagxedo en met un troisième à disposition. Nous avons la possibilité de télécharger un fichier texte de notre ordinateur. Point de vue design, Tagxedo propose un choix beaucoup plus large que Wordle. Nous nous intéressons maintenant à ses options.
    Dans le menu Option Word, Tagxedo donne la possibilté d'ignorer la ponctuation, les nombres, les mots communs et les mots outils.
    De plus, aspect non négligeable, Tagxedo propose d'analyser les caractères non Latins. Nous travaillons sur du japonais donc cette option est pour nous indispensable. Le découpage opéré par Tagxedo pour le japonais peut d'ailleurs paraître surprenant. En effet, s'il reconnaît très bien les composés sino-japonais (noms composés de caractères chinois), on observe quelques couacs avec des mots comme enerugî (dérivé de l'anglais et écrit en katakana エネルギー) : il distingue enerugî seul de enerugî to et no enerugî (to et no étant des particules grammaticales). Il aurait été plus judicieux de laisser de côté ces particules pour augmenter la fréquence de enerugî, d'autant que Tagxedo a prouvé être capable de distinguer les particules puisqu'il nous a fallu supprimer du nuage manuellement les cinq grandes particules du japonais (no, o, ni, wa, ga) dont les fréquences étaient très élevées. De plus, on remarque que Tagxedo fait le choix de regrouper des expressions composées telles que とはされないどころか (towa sarenai dokoro ka), ou encore をめぐってどんなことがあったでしょう (o megutte donna koto ga atta deshô), qui se compose par exemple d'une particule objet (o, qui est censé marqué comme objet ce qui le précède), d'un verbe (meguru sous sa forme suspensive megutte), d'un groupe nominal (donna koto), d'une particule sujet (ga) et d'un autre verbe (aru sous sa forme accomplie atta + deshô). Il n'y a aucun caractère chinois dans cette séquence, et il semble que Tagxedo soit un peu "perdu" pour distinguer les particules des verbes et des noms, ce qui donne comme résultat ce genre de formation un peu maladroite.
  • Haut de la page


    Tree Cloud

    Tree Cloud est un outil 2 en 1. Il combine les fonctions d'un nuage de mots avec le principe d'un arbre phylogénétique. Cette association permet de visualiser la thématique d'un texte de deux façons:

  • le nuage : même principe que les nuages en ligne. Plus les mots sont gros et en couleurs fortes plus ils apparaissent fréquemment dans le texte.
  • l'arbre : plus les mots sont cités ensemble, plus ils sont proches dans l'arbre.

  • Cet outil utilise Python et SplitsTree. Pour plus d'explications, un tour sur le blog de J. Véronis où il expose dans un article son premier nuage arboré.
    Tree Cloud : Philippe Gambette, Jean Véronis : Visualising a Text with a Tree Cloud, IFCS'09 (matériel supplémentaire).

    A nous de jouer !

    Nous avons testé cet outil avec les fichiers Dumps et Contextes globaux français après Fukushima.

    Fichier Contextes français après Fukushima




    Fichier Dumps français après Fukushima



    Première chose à noter : TreeCloud possède un anti-dictionnaire français et anglais. Cet anti-dictionnaire répertorie globalement les mots-outils car ils n'ont aucune pertinence sémantique. TreeCloud peut ainsi les neutraliser en utilisant cette liste. Le résultat n'est pas parfait masi très satisfaisant.

    Deuxième constat : le nuage arboré du fichier Dumps contient des branches qui sont inexistantes dans le nuage arboré du fichier Contextes. Ces deux petites branches situées sur la gauche contiennent des mots du champ lexical du site web "rss", "site", "compte", "http", "february" (sûrment pour les archives).
    Cette représentation en arbre phylogénétique permet de comprendre que ces mots sont souvent utilisés ensemble. Ces mots ne sont pas utlisés dans les articles de presse mais dans la page web en général. C'est pourquoi ils apparaissent dans le nuage arboré des Dumps et pas dans celui des Contextes. En effet, dans le fichier Contexte global, on retrouve les contextes de notre mot-clé qui ont tous probablement été extraits de l'article. Par conséquent ce fichier ne contiendrait pas de mots utilisés uniquement en dehors de l'article.

    Troisième constat : même remarque que pour les outils en ligne, ce sont les mots qui sont pris en compte et non les lexèmes. (exemple : "question" et "questions", "énergétique" et "énergie"). Il en est de même pour la remarque sur les apostrophes.

    Haut de la page


    Tag Cloud Builder

    Voici un autre outil qui permet de visualiser le thème d'un texte : Tag Cloud Builder. Les mots les plus fréquents sont mis en avant par leur couleur et leur taille. Ce programme a été élaboré par P. Gambette. Vous retrouverez ici sa page dédiée à cet outil.
    Principe : dans cet utilitaire, on charge un fichier au format txt et encodé en iso-8859-1 qui contient une liste de mots avec leur fréquence. Le fichier se présente sous cette forme :

    Forme Fréquence
    NUCLEAR 299
    POWER 296
    STATIONS 42
    ENERGY 16

    L'espace entre le mot et sa fréquence est une tabulation. Il est possible d'obtenir automatique cette liste mot-fréquence avec l'outil dico de J. Véronis. L'avantage de cet outil c'est qu'on peut utiliser un anti-dictionnaire. Nous avons rajouté l'anti-dictionnaire de l'anglais fourni dans TreeCloud à l'anti-dictionnaire français inclu dans l'outil dico. Nous avons ainsi traité les fichier anglais avant Fukushima DumpsGlobaux et ContextesGlobaux.

    Voici ce que nous obtenons :

    Fichier Contexte anglais avant Fukushima


    C:\Users\Asceline\Desktop\contexteGlobalUTF8_anglaises_avant_Fukushima-dic.TXT

    Ce nuage de mots a été construit par le logiciel Freecorp TagCloud Builder.
    Le code HTML et donc le style du nuage sont copiés du Nébuloscope de Jean Véronis


    Fichier Dump anglais avant Fukushima


    C:\Users\Asceline\Desktop\PROJET\dumpGlobalUTF8_anglaises_avant_Fukushima-dic.TXT

    Ce nuage de mots a été construit par le logiciel Freecorp TagCloud Builder.
    Le code HTML et donc le style du nuage sont copiés du Nébuloscope de Jean Véronis


    Noux constatons que les deux nuages sont différents. Encore une fois le fichier Dump contient des informations en "trop". Il faudrait trouver un moyen de neutraliser le lexique typique des sites web de presse comme "email", "search", "click", "news". Une solution serait d'ajouter ce lexique à l'anti-dictionnaire mais nous n'avons pas les moyens pour le moment de le déterminer.
    Le problème de la flexion des mots n'est pas non plus résolue dans cet utilitaire (exemple : "plant" et "plants")

    Haut de la page


    Le Trameur

    Le Trameur est un logiciel de textométrie qui va nous permettre de faire apparaître dans un graph les cooccurrents d'une forme-pôle donnée (ici en jaune). La documentation de ce logiciel est disponible ici  (chapitre 18 pour le paramétrage des cooccurrents). Nous avons tout d'abord utilisé les fichiers de contexte en bloquant chaque contexte avec le caractère #. Nous avons appliqué un seuil minimum afin d'obtenir davantage de résultats. Le Trameur applique des couleurs et des épaisseurs distinctes aux flèches qui relient les cooccurrents au pôle selon leur spécificité et le nombre de contextes associés. La légende, ainsi que le seuil et la co-fréquence choisis, sont visibles au dessus de chaque graphe.

    Fichier français avant Fukushima


    Fichier français après Fukushima


    Fichier anglais avant Fukushima

    Fichier anglais après Fukushima

    Puis nous avons utilisé les fichiers dump, avec comme seul délimiteur le point. Les contextes étant donc plus larges, nous avons augmenté le seuil à 5. 

    Fichier français avant Fukushima

    (Le Trameur refuse de prendre en charge le fichier dump français après Fukushima, qui n'est pourtant pas erroné)

    Fichier anglais avant Fukushima

    Fichier anglais après Fukushima


    Encore une fois, certaines informations sont "en trop" dans le fichier dump ("autoplay", etc...), mais tout comme Tagxedo ou Wordle, il est possible d'éditer manuellement une "stop liste" dans Le Trameur qui permet d'exclure certaines formes (encore faut-il être sûr de ce que l'on veut exclure).

    Haut de la page