L'analyse linguistique :

Avant toute analyse, nous avons dû retravailler les fichiers obtenus après les dumps et les extractions de contextes : ceux-ci contenaient beaucoup trop d'informations qui ne nous interessaient pas et brouillaient l'accès à ce qui nous interréssait, comme les liens Facebook, Twitter... présents sur toutes les pages de journaux. Mais l'autre problème était aussi celui des accents : travaillant sur le français et l'allemand, cela en fesait beaucoup, et quand même notre motif en contient deux en français, il fallait rétablir les accents pour pouvoir travailler dessus, alors que le décodage de ceux-ci varie. D'autre part, le programme générait une séparation entre les dump et contextes propres à chaque fichier, mais des séparateurs de ligne ont aussi été ajoutés.
Donc avant d'aller plus loin, voilà les fichiers sur lesquels nous avons travaillés - les autres étant accessibles via les tableaux :
Dump en français
Dump en anglais
Dump en allemand
Contextes en français
Contextes en anglais
Contextes en allemand

1. Les nuages de mots :

Nous sommes donc maintenant à la phase 2 de notre projet. Cette phase consiste à créer des nuages de mots à l'aide de logiciel en ligne comme wordle, Tagcloud Generator ou encore Word It Out. Ces logiciels travaillent sur la fréquence des mots sur un corpus donné. Les nuages vont donner une représentation visuelle de la fréquence des mots qui apparaissent dans le contexte global et dans le dump global.
Avant de générer les nuages nous avons procéder à un "nettoyage" des dumps c'est à dire que nous avons supprimer tout ce qui ne concernait pas l'article de la page internet (liens vers les pubs, liens vers les réseaux sociaux,...).
Pour les nuages notre première difficulté a été le terme "Génération Y" en effet les logiciels considère le "Y" comme étant un "mot vide" et donc ne les font pas apparaitre dans les nuages.

nuage
Nuage sans le "y"

Si on veut voir le "Y" il faut donc mettre tous les mots vides ce qui fausse le résultat de notre nuage :
nuage
Nuage avec les mots vides

Après avoir demander l'aide de Monsieur Fleury nous avons décidé de supprimer l'espace entre les deux mots. Voici les résultats de nos nuages (Nous avons travailler essentiellement sur wordle)
nuage
Contexte en français


nuage
Contexte en allemand


nuage
Contexte en anglais


nuage
Dump en allemand


nuage
Dump en anglais


nuage
Dump en français


2. Le trameur :

Nous allons maintenant utiliser le trameur. Le trameur est un outil informatique qui permet de créer une ressource textométrique Trame/cadre à partir d'un corpus.
C'est un logiciel qui permet d'analyser nos dumps et nos contextes globaux afin de savoir les mots les plus fréquents et dans quel contexte ils s'inscrivent.

Avant de pouvoir analyser les textes il a fallu délimiter les articles, nous avons donc ajouter un commande à notre script.




Et pour avoir une délimitation plus précise nous avons ajouter "§" à chaque paragraphe pour avoir un contexte plus précis.



Nous pouvons passer à l'analyse via le trameur. Tout d'abord après l'importation du texte il faut les paramètrer c'est à dire préciser que les textes sont en UTF-8 et dans quelles langues ils sont.




Nous avons eu un problème pour l'anglais parce qu'il n'y avait pas l'anglais codé en UTF-8.



Le trameur permet d'analyser le texte de différentes manières la fonction "FORME-LEMME" permet de voir les différentes formes des mots.
La fonction "CONCORDANCE" permet de voir les concordances des mots recherchés.







Et la fonction "cooc" permet de calculer les coocurents des termes recherchés. C'est cette fonction que nous allons principalement utiliser pour voir les termes liés au mots "Génération Y" et à ses synonymes.




















Petite conclusion : Tout d'abord, sur les nuages de mots on constaste que le terme "génération Y" et ses synonymes sont bien mis en valeur. On remarque ensuite que dans les trois langues le mot "travail" ressort le plus. On associe souvent la génération Y au travail car c'est le moment où cette génération entre dans le monde du travail et où on se pose beaucoup de questions sur leurs manières de travailler et d'appréhender l'autorité.

Ensuite grâce au Trameur, on continue à noter l'association du mot "travail" à la génération Y mais on peut voir aussi que le terme est aussi lié à des termes négatifs comme "unhappy", "problème", "unrealistic".

On peut conclure que quelques soit les pays la "génération Y" est perçue de la même manière : on craint leur entrée dans le monde du travail dû à leur perception de la vie (ils veulent tout en même temps être heureux au travail et dans leur vie personnelle) et les autres générations perçoit cette génération comme plus flemmarde et plus pessimiste que les anciennes générations. Nous rappellons que nous arrivons aux mêmes conclusions pour les trois langues car nous avons pris trois pays occidentaux qui se ressemblent beaucoup par conséquent il ne pouvait pas avoir un grand décallage dans les résultats.