L'analyse
linguistique :
Avant toute analyse, nous avons dû retravailler les fichiers
obtenus après les dumps et les extractions de contextes :
ceux-ci contenaient beaucoup trop d'informations qui ne nous
interessaient pas et brouillaient l'accès à ce qui nous
interréssait, comme les liens Facebook, Twitter... présents
sur toutes les pages de journaux. Mais l'autre problème
était aussi celui des accents : travaillant sur le français
et l'allemand, cela en fesait beaucoup, et quand même notre
motif en contient deux en français, il fallait rétablir les
accents pour pouvoir travailler dessus, alors que le
décodage de ceux-ci varie. D'autre part, le programme
générait une séparation entre les dump et contextes propres
à chaque fichier, mais des séparateurs de ligne ont aussi
été ajoutés.
Donc avant d'aller plus loin, voilà les fichiers sur
lesquels nous avons travaillés - les autres étant
accessibles via les tableaux :
Dump en français
Dump en anglais
Dump en allemand
Contextes en
français
Contextes en anglais
Contextes en
allemand
1. Les nuages de mots :
Nous sommes donc maintenant à la phase 2 de notre projet.
Cette phase consiste à créer des nuages de mots à l'aide de
logiciel en ligne comme wordle, Tagcloud Generator ou encore
Word It Out. Ces logiciels travaillent sur la fréquence des
mots sur un corpus donné. Les nuages vont donner une
représentation visuelle de la fréquence des mots qui
apparaissent dans le contexte global et dans le dump global.
Avant de générer les nuages nous avons procéder à un
"nettoyage" des dumps c'est à dire que nous avons supprimer
tout ce qui ne concernait pas l'article de la page internet
(liens vers les pubs, liens vers les réseaux sociaux,...).
Pour les nuages notre première difficulté a été le terme
"Génération Y" en effet les logiciels considère le "Y" comme
étant un "mot vide" et donc ne les font pas apparaitre dans
les nuages.
Nuage sans le "y"
Si on veut voir le "Y" il faut donc mettre tous les mots
vides ce qui fausse le résultat de notre nuage :
Nuage avec les mots vides
Après avoir demander l'aide de Monsieur Fleury nous avons
décidé de supprimer l'espace entre les deux mots. Voici les
résultats de nos nuages (Nous avons travailler
essentiellement sur wordle)
Contexte en français
Contexte en allemand
Contexte en anglais
Dump en allemand
Dump en anglais
Dump en français
2. Le trameur :
Nous allons maintenant utiliser le trameur. Le trameur est
un outil informatique qui permet de créer une ressource
textométrique Trame/cadre à partir d'un corpus.
C'est un logiciel qui permet d'analyser nos dumps et nos
contextes globaux afin de savoir les mots les plus fréquents
et dans quel contexte ils s'inscrivent.
Avant de pouvoir analyser les textes il a fallu délimiter
les articles, nous avons donc ajouter un commande à notre
script.
Et pour avoir une délimitation plus précise nous avons
ajouter "§" à chaque paragraphe pour avoir un contexte plus
précis.
Nous pouvons passer à l'analyse via le trameur. Tout d'abord
après l'importation du texte il faut les paramètrer c'est à
dire préciser que les textes sont en UTF-8 et dans quelles
langues ils sont.
Nous avons eu un problème pour l'anglais parce qu'il n'y
avait pas l'anglais codé en UTF-8.
Le trameur permet d'analyser le texte de différentes
manières la fonction "FORME-LEMME" permet de voir les
différentes formes des mots.
La fonction "CONCORDANCE" permet de voir les concordances
des mots recherchés.
Et la fonction "cooc" permet de calculer les coocurents des
termes recherchés. C'est cette fonction que nous allons
principalement utiliser pour voir les termes liés au mots
"Génération Y" et à ses synonymes.
Petite conclusion : Tout
d'abord, sur les nuages de mots on constaste que le terme
"génération Y" et ses synonymes sont bien mis en valeur. On
remarque ensuite que dans les trois langues le mot "travail"
ressort le plus. On associe souvent la génération Y au
travail car c'est le moment où cette génération entre dans
le monde du travail et où on se pose beaucoup de questions
sur leurs manières de travailler et d'appréhender
l'autorité.
Ensuite grâce au Trameur, on continue à noter l'association
du mot "travail" à la génération Y mais on peut voir aussi
que le terme est aussi lié à des termes négatifs comme
"unhappy", "problème", "unrealistic".
On peut conclure que quelques soit les pays la "génération
Y" est perçue de la même manière : on craint leur entrée
dans le monde du travail dû à leur perception de la vie (ils
veulent tout en même temps être heureux au travail et dans
leur vie personnelle) et les autres générations perçoit
cette génération comme plus flemmarde et plus pessimiste que
les anciennes générations. Nous rappellons que nous arrivons
aux mêmes conclusions pour les trois langues car nous avons
pris trois pays occidentaux qui se ressemblent beaucoup par
conséquent il ne pouvait pas avoir un grand décallage dans
les résultats.