Analyses

Avec l’aide du logiciel Le Trameur et Itrameur sur internet, nous avons pu analyser nos fichiers dump et nos fichiers de contextes en français et en anglais afin de savoir comment pourrait être réparti notre mot "obésité" / "obesity" dans les deux langues, et ainsi, savoir quel est sa représentation, avec quels autres mots peut-on le retrouver ? Par quels autres mots, lemmes, notre mot peut-il être influencé ?

Nous avons donc essayer de répondre à ses questions à l’aide de ces logiciels.

À l’aide de Itrameur en ligne, nous avons commencé par analyser plus généralement notre mot obésité/obesity avec les fichiers dump.

Nous avons tout d’abord voulu savoir quels mots accompagnant le mot « obésité » (en français) étant sur-représentés dans notre corpus des dump. Voici le résultat :

Voici le résultat en anglais :

À l’aide des deux tableaux de coocurrences, on peut voir que les mots surreprésentés se rejoignent à peu près avec quelques différences internes. En effet, on trouve dans les deux langues les mots « prévalence » (prévalence), «enfant » associé à « childhood », « surpoids» (overweight), on peut aussi associer « extreme » et « sevère », et d’autres mots qui diffèrent tels que : « adult », « epidemic » « chirurgie », « causes » …

On peut aussi ajouter le fait qu’il faudrait que notre corpus soit nettoyer à la main afin de ne pas retrouver comme surreprésentation des phénomènes qui ne sont pas des mots (comme des étoiles, des signes de ponctuation) et donc qui peuvent parfois fausser un peu l’analyse ainsi que l’interprétation.



Par la suite, nous avons effectuer un graphe des cooccurrences dans chaque langue afin d’avoir un meilleur visuel plus attractif et dynamique :

On peut voir qu’ici, en ne changeant pas les seuils de recherche, qu’il y a beaucoup plus de cooccurrences en anglais qu’en français. Il aurait donc fallut changer les seuils de recherche afin d’obtenir deux graphes à peu près similaires en nombre de mots dans les deux langues.

Ces derniers montrent quand même par quels mots ils sont connectés, tel un « organigramme ».

Nous avons aussi procédé à une carte des sections dans chaque fichier dump afin de savoir comment étaient répartis les mots recherchés.

Voici un exemple pour chaque langue :



Cette carte des sections nous permet de voir dans quelle partie du dump est situé notre mot et donc comment il est réparti dans chaque partie.

Enfin, toujours avec nos fichiers dump, nous avons fait les spécificités totales du fichier, donc à quelle fréquence l’on retrouve chaque mot du fichier. Le résultat reste un peu brouillon car nous le logiciel a du parcourir tout le fichier afin de représenter chaque mot, voire chaque caractère. De ce fait, comme dit précédemment, vu que notre fichier n’est pas nettoyer à la main, certains caractères peuvent venir fausser un peu le résultat, comme ici les numéros, et donc le résultat reste très illisible.

À l’aide du logiciel Le Trameur, nous avons tout d’abord mis notre fichier des contextes en français afin d’avoir une représentation du mot « obésité ».

Après avoir importé le fichier dans le logiciel, on peut voir que notre mot principal, est bien la forme maximale (obésité).

Nous allons voir s’il en est de même pour l’anglais.

Sans surprise, notre forme maximale en anglais est aussi « obesity ».



Nous allons donc par la suite analyser ces formes maximales à l’aide de la carte des sections, des fréquences et pour finir les concordances.

Commençons par la carte des sections :

On peut donc voir la répartition dans chaque url du mot « obesity » en anglais. Cela permet d’avoir un accès plus rapide au contexte en cliquant sur une croix.



Voici le résultat pour le français :


Grâce à notre fichier « contextes » où le mot choisi est déjà isolé, on peut voir que le mot est assez régulièrement réparti dans tous les fichiers.

Ce qui permettra par la suite de faire une analyse un peu plus détaillée.

De ce fait, on peut se focaliser sur le fréquence de la forme lemme choisie, qui est ici « obésité » et « obesity ».

On peut voir que notre forme lemme « obésité » en français apparaît 887 fois dans notre fichier contextes, ainsi que d’autres formes assez proches comme « l’obésité » qui apparaît 275 fois, et parfois des coquilles telles que : « lobésité » où il manque l’apostrophe, ou encore « d’obésité^3 »

En anglais le résultat est moins contrasté, avec un résultat qui se détache : « obesity » avec 786 occurrences.

On peut donc dire que nos fichiers contextes représentent tous les deux à peu près de la même façon le mot choisi. De ce fait, l’analyse ne devrait pas être faussée à cause d’un écart d’occurences.

Pour aller un peu plus loin, on peut se concentrer sur la fréquence en contexte afin d’observer plus précisément la répartition du mot dans le fichier :

Pour l’anglais :

De fil en aiguille, on peut maintenant se poser la question :

Dans quel partie de la phrase notre mot se trouve-t-il ? Qu’est-ce qu’il peut y avoir avant et après ?

Dans ce cas, on peut directement aller voir quel parti du discours peut se trouver à côté du mot, mais l’on peut aussi directement regarder les concordances.

Voici le résultat (en français puis en anglais) :

À l’aide des concordances, on peut donc voir directement où se situe le mot choisi et dans quel contexte il se situe.



Enfin, pour élargir notre analyse, nous avons choisi comme forme lemme un synonyme très proche dans les deux langues du mot obésité, afin d’avoir une autre représentation.

Ce dernier est : « surpoids », « overweight »

Nous avons donc concentré une dernière analyse sur ce terme afin de faire une comparaison :

Nous sommes allées voir directement à l’aide de la forme lemme les concordances associées :

Voici le résultat pour le français puis l’anglais :

On peut voir ici que le mot « surpoids » est beaucoup plus associé à l’obésité que le mot « overweight » qui apparaît moins souvent dans les URLS.

Complément

Par la suite, nous avons été sur le site de l'université de Leipzig. Ce site permet de faire une concordance de mots à l’aide des corpus présents dans le site. Nous avons décidé d'analyser nos mots avec ce copus car nous trouvons intéressant de faire une comparaison avec le résultat de l'analyse de notre corpus.

Voici le résultat pour les deux langues :

Nous pouvons donc constater que le résultat de l'analyse faite avec le corpus de l'université de Leizpig est similaire à ce que nous avons pu trouver.

Conclusion

Notre analyse sur les logiciels Le Trameur et Itrameur nous ont permis de voir comment été représenté le mot « obésité » et « obesity » à l’aide des URLS prises sur internet.

En effet, on peut se rendre compte qu’à travers chaque pays, chaque culture, le mot n’est pas forcément interprété de la même manière.

Cependant, les occurrences des mots choisis semblent avoir une signification assez similaire dans les langues différentes. On peut voir cela grâce aux concordances dans notre analyse. On a pu faire des rapprochements entre certains mots dans deux langues qui sont, dans chaque cas, des synonymes du mot principal. De ce fait, on peut quand même se poser la question suivante :

Un corpus comme celui-ci suffit-il pour conclure que la représentation du mot est similaire dans les deux pays ?

On a souvent des « prérequis » sur la question. De ce fait, on peut s’imaginer que le mot « obesity » serait plus présent dans les corpus américains plutôt que français, sûrement moins touchés par ce phénomène.

Si on s’en tient aux analyses faites ci-dessus, la seule observation que l’on peut faire, c’est que les deux pays sont touchés : on trouve, avec un même nombre d’urls choisis dans les deux langues, quasiment la même répartition du mot de départ. Par ailleurs, le synonyme « surpoids »/  « overweight » est beaucoup plus flagrant en français car sa représentation est plus élevée.