Image

Lactose is GREAT

Ceci est un site de trois filles passionnées par le lactose

Contenu

Tableaux et corpus

Le lactose en anglais, chinois, espagnol, français, russe et slovaque

En savoir plus

Notre script

This is how the magic happpens

En savoir plus

Scripts supplémentaires

Parce que parfois un seul script ne suffit pas...

En savoir plus

Pourquoi le lactose ?

La raison pour laquelle ce lexème a été choisi est le fait que nous vivons un véritable « boom » des produits « sans-lactose ».

Vu que ce n’est que dans les dernières années que les gens ont pris conscience de l’existence de l’intolérance au lactose, nous nous demandons si cette tendance est justifiée ou s’il s’agit d’une mode passagère.

La carte montre les résultats d’une recherche scientifique menée sur cinq continents du globe.

Image

Nous partons de l’idée que les nations différentes sont intolérantes au lactose à des degrés variés. Par exemple, nous pouvons observer que le taux d’intolérance au lactose est beaucoup plus élevé en Chine, en comparaison avec les pays « de l’occident » (France, Etats-Unis, etc.).

Notre hypothèse de départ est la suivante : Nous nous attendons au fait qu’en chinois le mot « lactose » sera beaucoup mentionné sur le WEB et avec des connotations plutôt négatives.

Afin de vérifier notre hypothèse, nous réaliserons une étude comparative des différents corpora, récoltés à partir des données disponibles sur Internet. Nous nous concentrerons sur les textes en chinois, anglais, russe, français, slovaque et espagnol.

En savoir plus ? Voir notre BLOG

Nuages de mots

Analyse textométrique

Image

Les corpus obtenus ont été analysés via le logicel iTrameur. Dans cette partie nous allons présenter les observations qui ont été faites pour chaque langue analysée.

Petite note : dans notre analyse, nous allons parler de la présence des contextes "négatifs" et "positifs" ce qui nécessite une petite explication. Dans notre cas, les contextes positifs sont les contextes où le lactose est mentionné comme quelque chose de bénéfique pour la santé, alors que dans les contextes négatifs le mot en question est traité comme quelque chose de néfaste.

Chinois

Selon le tableau montré sous «dictionnaire », les mots thématiques ont des fréquences suivantes : « 乳糖 »(lactose) :2504 ; « 不耐(770)/不耐受(409) »(intolérance) : 1179 ; « 乳糖酶 »(lactase) : 678 ; « 牛奶(540)+奶(113) »(lait) : 653. Il est évident que le mot « lactose » est également beaucoup lié à « intolérance », mais est-ce que cette intimmité a le même niveau dans ces 6 langues différente ? Pour répondre à cette question, on décide de calculer le suivant et comparer le résultat:

r=Fréquence_intolérance/Fréquence_lactose

En chinois, r=0.47

Les images suivantes montrent la relation des mots plus précise.


Pôle : lactose

Image Image

Les premiers mots liés à « lactose » sont (par l’ordre de co-fréquence décroissant) : « intolérance », « 症(maladie/symptôme) » (même caractère en chinois), « décomposer », « digérer » et « absorber ». Il semble que l’intolérance au lactose est le sujet le plus mentionné quand on parle de « lactose ».

Pôle : intolérance

Image Image Image Image

Quant au mot “intolérance”, après le plus lié « lactose » et « symptôme/maladie », on voit aussi l’apparition de « 腹泻(diarrhée) », « 亚洲(l’Asie, en caractère traditionnel donc probablement venu de corpus hors P.R.C) », « 过敏(allergie, caractère traditionnel) » et d’autres mots qui semble server à expliquer le fonctionnement de l’intolérence. Mais, le IndSp de « Asie » est seulement 11 et ce mot n’est pas en tête du tableau. Ces statistiques montrent que l’on ne mentionne pas autant la forte proportion de l’intolérance (au lactose) pour les Asiatiques comme notre notre groupe a prévu.

Pôle : lactase

Image Image

Tous les mots co-occurrents de « lactase » ont l’air d’expliquer la fonction de lactase, c’est logique. Mais il est à noter que les deux les plus liés sont « 缺乏(manque) » et « 活性(actif) », donc, c’est possible que l’apparition essentiel de ce mot sert souvent à expliquer le fonctionnement de l’intolérance.

Pôle : lait

Image Image

Finalement, le mot « lait » dans ce contexte, est souvent lié à « allergie », idem en caractère simplifié et traditionnel. Cela peut signifier qu’on confondre l’intolérance au lactose avec l’allergie au lait.

Conclusion :

« Intolérance au lactose » est toujours le plus parlé quand on mentionne « lactose »;

On ne souligne pas assez la spécificité des Asiatiques comme prévu.


Anglais

Analyse du dictionnaire

Image

En voyant cette première page de « dictionnaire », il n’y a pas d’autres mots lexicaux entre les mots anglais « lactose » et « intolerance », ce qui veut dire que ces deux mots sont les plus utilisé dans le corpus. en plus, l’occurrence des mots thématiques : 2464 pour « lactose », 986 pour « intolerance », 156 pour « intolerant » . Il est à noter que « milk » a une occurrence de 942, qui est beaucoup plus qu’en chinois.

La distribution
Image

Le mot "lactose" est présent dans tous les contextes.

Image

Le mot "intolerence" est présent dans presque tous les contextes.

Analyse des cooccurrences

Image

Si on voit les co-occurrents du mot « lactose », les plus fréquents sont « intolerant », « intolerance » , « digest » et « free ». Les trois premiers sont normaux, mais pourquoi le mot « free » ?

Image

En allant dans sa concordance, on peut voir que la nourriture sans lactose et "lactose free" en anglais. Cela explique la haute occurrence de « milk » et de « free ».

Image

Finalement, ce réseau de co-occurrence comporte également des mots scientifiques fréquents, ex. malabsorption, etc. Néanmoins, comme en chinois, presque tous ces expressions servent à expliquer le fonctionnement de l’intolérance au lactose.

Conclusion

Comparez avec chinois, cette fois-ci, en anglais, « lactose » a presque la même fréquence, et si on calcule le ratio:

Fréquence_lactose/Fréquence_intolérant(intolérance)=0.46

C'est presque le même comme en chinois. C’est-à-dire, même si une plus grande de proportion de population asiatique (surtout les Chinois) a l’intolérance au lactose, on ne voit pas une forte augmentation de son occurrence autours du sujet « lactose », en plus, il est à noter que le mot « milk (lait) » apparaît beaucoup plus dans le corpus anglais, la raison possible est que dans le monde anglais (surtout aux États-Unis, puisque la plupart de URLs sont localisé dans cette région), les gens font plus d’attention au lactose au lait. Autrement dit, ils sont plus inquiets sur ce problème d’intolérance, tandis que la proportion de population intolérante au lactose est beaucoup moins importante.


Espagnol

Le corpus étudié a été récolté des pages web écrites en espagnol, en ciblant les pages mexicaines.


ANALYSE DU DICTIONNAIRE

Image Image

Pour commencer l’analyse de ce corpus, d’abord j’ai observé le « dictionnaire » avec les mots les plus fréquents dans la totalité du corpus. Pour obtenir des résultats les plus vraisemblables, j’ai changé les majuscules en minuscules pour certains mots clés. Après « de » et « la », le mot le plus fréquent et, bien entendu, « lactose ». Ensuite nous trouvons le mot « leche » (lait), puis sur la deuxième page « intolerancia » (intolérance). Ces trois mots sont les seuls mots lexicaux qui apparaissent sur les deux premières pages du dictionnaire.

Pôle : « lactosa »

Ensuite, je me suis concentrée sur le mot « lactosa » (lactose) et dans la partie cooccurrences j’ai obtenu une liste des co-occurrents les plus fréquents. Le mot avec lequel « lactose » est lié le plus souvent est « intolerancia » (intolérance). Les co-occurrents suivants sont : « sin », (sans) « intolerantes » et « intolerante » (intolérent,s), « malabsorción » (mauvaise absorption). De cela on peut conclure qu’en pages web en espagnol au Mexique, on parle du lactose surtout pour parler de l’intolérance et des problèmes d’absorption de cette matière. Dans notre conception, ceci correspond à un point de vue négatif sur le lactose : lactose est vu comme quelque chose de périlleux pour la santé.

Image Image

Pôle : « soy »

Le mot « soy » (je suis) est aussi apparu dans le contexte de « lactosa ». Comme ce n’est pas un mot qu’on s’attendrait, je l’ai recherché séparément. Voilà le résultat :

Image

Le réseau obtenu correspond presque parfaitement à la question : « Cómo comer si soy intolerante a la lactosa ? » (Comment manger si je suis intolérant au lactose ?). Cette phrase est alors au cœur de ces pages récoltées. On peut alors supposer qu’un grand nombre de personnes est affecté par l’incapacité de digérer le lactose. D’ailleurs, cela coïncide avec nos attentes, vu que sur la carte du monde (présentée dans la partie « Pourquoi le lactose ?» le Mexique figure comme une région avec intolérance au lactose plutôt élevée.

Pôle : « leche »

Finalement, je me suis concentré sur le mot « leche » (lait) qui prend une position assez importante dans le corpus. Les mots liés à ce lexème sont plutôt neutres. On pourrait deviner que les pages décrivent la composition du lait (« proteina » (protéine), « azúcar » (sucre)) et probablement il y a des solutions proposées pour les personnes intolérantes au lactose : «cabra » (chèvre) – lait de chèvre comme alternative pour ceux qui ne peuvent pas digérer le lait de vache.

Image

Conclusion :

En conclusion, dans ce corpus, le lactose figure comme un élément négatif et est discuté surtout en relation avec l’intolérence.


Français

Analyse du dictionnaire

Commençons par l’analyse du dictionnaire composé à partir des mots utilisés dans le corpus.

Image

On peut voir que le premier mot lexical qui sort est le mot “lactose”, avec la fréquence de 2096, ce qui montre que le corpus est pertinent pour notre étude. Pour avoir une idée de sa distribution, nous regardons la carte et nous pouvons constater que le mot “lactose” est présent dans chaque contexte analysé (dont une partie est visible dans l’image ci-dessous).

Image

Le deuxième mot lexical qui apparaît dans le classement est le mot “intolérance”, avec la fréquence de 600, donc, nous pouvons supposer que les deux mots sont souvent appliqués ensemble.

Image

Quant à la distribution du mot “intolérance” dans les contextes, il est présent dans la plupart des échantillons analysés.

Image

Donc, selon ces données, nous pouvons déjà supposer que les mot “lactose” et “intolérance” sont étroitement liés, ce qui peut être interprété comme l’utilisation de ce mot dans un contexte plutôt négatif. Il est également intéressant que les mots typiquement positifs, comme “bénéfique” ou “sain”, sont très rares dans le corpus (10 et 19 occurrences respectivement) et ne sont pas utilisés pour parler des effets positifs du lactose. Par exemple, voici l’extrait du concordancier du mot “bénéfique” :

Image

Analyse des cooccurrences

Maintenant nous allons regarder les cooccurrences du mot “lactose”.

Image Image

D’ores et déjà nous pouvons constater le fait que “lactose” se trouve en relations de concurrence avec beaucoup d’autres lexèmes, ce qui montre bien deux faits :

  • ce mot et central dans le corpus
  • c’est un mot d’actualité

Nous allons limiter l’index SP, afin de diminuer la taille du nuage pour le rendre lisible. Vu la quantité importante des cooccurrences, nous allons traiter les résultat à partir de l’index égal à 15.

Image

Nous pouvons constater que les unités les plus cooccurrentes avec le lactose sont le mots “au”, “intolérance”, “sans”, “le”, “est”. Ce qui est intéressant, très souvent l’article défini “au” sert à connecter les mots “intolérance" et “lactose”, ce qui explique la fréquence de son utilisation.

Image

Les cooccurrences moins fréquentes incluent également toutes les formes possible de la lemme intolérance” , ainsi que d’autres lexiques renvoyant aux effets négatifs du lactose, i.e. “maldigéstion” (IndSP = 13), “souffrent” (IndSP = 11), symptômes (IndSP = 12), etc. Néanmoins, nous avons remarqué la présence du lexique provenant du monde scientifique, par exemple, les noms des molécules comme “galactosidases” (IndSP = 11), ou bien “ethanol” (IndSP = 12).

En français, r = O,32

Russe

Analyse du dictionnaire

Analogiquement au corpus français, en russe le lexème “lactose” (en génitif) est le premier mot lexique dans la liste avec la fréquence de 1261.

Image

Cela montre que le corpus correspond bien au sujet de notre recherche. Par contre le mot “intolérance” occupe que la 20-ème place avec la fréquence de 285.

Image

Les unités qui y précèdent sont tels lemmes comme “produits” (290), “lactose” en nominatif (378 et 310), en accusatif (286), “lactase” en génitif (314) et “lait” en nominatif (389), en génitif (333), ce qui peut être classifié comme une lexique neutre. Cela est déjà différent des tendances observées pour le français, où aucun mot lexical n’était présent entre “lactose” et “intolérance”.

Il est compliqué de faire les conclusions sur la distribution des lexèmes russe, car un seul lemme peut posséder des flexions différentes et, donc, ne pas être présent dans la forme recherchée dans tous les contextes.

Analyse des cooccurrences

Voici le tableau des cooccurrences généré par iTrameur :

Image

Les unités qui ont l’indice SP supérieur à 40 sont le mot “intolérance” en nominatif (IndSP = **), génitif (IndSP = **) et instrumental (IndSP = 42), ainsi que le préposition “sans” (IndSP = **) ce qui montre le fait que dans le corpus russe le lexème “lactose” est très souvent utilisé dans le contexte négatif.

Image

Les autres lemmes “négatifs” trouvés en cooccurrence avec le lactose sont “symptômes” (IndSP = 17), “nocivité” (IndSP = 10), “souffrent” (IndSP = 8), etc. Par contre, nous avons trouvé une unité positive, “bienfait” (IndSP = 8). Pour mieux comprendre si l’on peut vraiment considérer ce mot comme quelque chose de positif, nous allons nous tourner vers le concordancier.

Image

Nous pouvons voir que le mot “bienfait” est utilisé dans le contexte suivant : “Méfait et bienfait du lactose”, donc, cela ne peut pas être considéré comme un contexte positif.

Un autre lexème qui peut potentiellement être interprété comme positif est “nécessaire/besoin”(). Voici quelques exemples du concordancier :

Image

(1) Les adultes ont en [du lait] besoin pour stimuler leur activité cérébrale <…>

(2) Il est nécessaire contrôler la consommation du lactose afin d’empêcher les problèmes <…>

(3) Voilà pourquoi il est nécessaire de consommer le lactose <…>

(4) Pour profiter des effets bénéfiques du lactose, il est nécessaire qu’il soit correctement digéré.

Donc, il est compliqué de définitivement classifier ce lexème en tant que positif ou négatif.

Ce qui est particulier de ce corpus, c’est une grande quantité de vocabulaire scientifique décrivant les processus liés à la digestion comme digérer (IndSP = 11), se dissocier (IndSP = 9), diviser (IndSP = 6), alcalin (IndSP = 5), s’oxyder (IndSP = 5), etc. Cela peut être expliqué par le fait que beaucoup de sources utilisées lors de la composition du corpus sont les sources scientifiques qui expliquent le fonctionnement du corps face au lactose.

En russe, r = O,34

Slovaque

Le corpus slovaque a été récolté en ciblant les pages écrites en slovaque. Pourtant, un grand nombre de texte est écrit en tchèque. La situation linguistique en web slovaque est telle que les pages tchèques et slovaques s’entremêlent, en forums souvent des personnes Tchèques et Slovaques participent aux mêmes débats sans séparation à cause des langues différentes. C’est pour cela que parfois on peut trouver les deux langues dans une seule page. Pour ces raisons, et pour un manque de ressources purement slovaques, j’ai décidé de garder les textes tchèques.


ANALYSE DU DICTIONNAIRE

Image Image Image

Le dictionnaire comprend un grand nombre de mots grammaticaux. La première page ne contient aucun mot lexical. On ne le trouve qu’à la deuxième page, et c’est le mot « laktózy » (lactose en génitif). Ensuite nous trouvons le token « Kč » ce qui est l’abréviation de la couronne tchèque (monnaie utilisée en Tchéquie). Après « laktóza » apparaît (lactose en nominatif). Et le dernier mot lexical sur les trois premières pages est « mléko » (lait).

Déjà on peut en tirer la conclusion que ce corpus est probablement moins pertinent : il contient beaucoup de mots lexicaux, peu de mots lexicaux, de mots qui n’ont pas une grande relation avec le sujet (comme « Kč »), peu d’indices sur « l’opinion » générale. Ceci dit, j’attire l’attention au fait que ce corpus est tiré de 83 pages web et le corpus espagnol seulement de 60, pourtant il contient plus du texte et est généralement un échantillon plus représentatif. Cela est probablement causé par le petit nombre de locuteurs slovaques sur le web. Et de l’expérience personnelle je peux ajouter qu’un grand nombre de personnes préfèrent de surfer sur les pages écrites en autres langues, notamment en anglais.

Pôle : « laktóza »

Le mot central de notre corpus, « laktóza » est lié au plus souvent avec le mot « mléčný » (de lait), « monohydrát » (monohydrate), « disacharid » (disaccharide), « cukr » (sucre). Alors une majorité de mots spécialisés, de médecine ou chimie. De l’autre côté, nous avons le mot « Fuj » ce qui est une interjection exprimant le dégoût. C’est le seul mot qui transmet une sorte de prise d’opinion envers le lactose. Mais avec nombre d’occurrences aussi bas et avec des mots de contextes très spécifiques (scientifiques d’un côté et très familiers de l’autre), on ne peut pas en tirer aucune conclusion.

Image

Pôle : « mléko »

Image

Les cooccurrences du mot « mléko » ont un sens plutôt neutre. On parle « máslo » (beurre), « škrob » (amidon), « Kravské » (de vache), « plnotučné » (écrémé). Quelques alternatives sont mentionnées : « ovesné » (d’avoine), « sójový » (de soja), « Kozí » (de chèvre). Et on trouve un tas de mots scientifiques comme pour le mot lactose plus haut. Pour la première fois dans les cooccurrences, on trouve les mots « Alergie » (allergie).

Pôle : « intolerancia »

Image

Et comme dernier mot, je me suis concentrée sur le mot « intolerancia » (intolérance).

Comme pour l’espagnol, ici aussi on peut reconstruire une question : « Čo je laktózová intolerancia? » ou bien «Čo je intolerancia laktózy? ». Pour les deux, la traduction est : « Qu’est-ce que c’est l’intolérance au lactose ? ». On peut en supposer que les pages collectées viennent répondre à cette question et c’est pour cela qu’on y trouve tellement de termes scientifiques : il s’agit d’explications de ce phénomène.

Conclusion :

En conclusion, le corpus collecté en slovaque n’a pas apporté suffisamment de données pour en pouvoir tirer de conclusions solides. Pourtant on peut dire qu’en pages slovaques aussi, le thème du lactose est liée à l’intolérance, pourtant non d’une manière étroite.

La conclusion générale

Notre analyse a montré que le mot "lactose" est générallement associé au mot "intolérance" dans toutes les langues analysées, indépendamment de leur poisition dans la "Lactose Breakdown" carte.

Donc, comment peut-on interpréter ces résultats ?

Une réponse possible est le fait que l'intolérence au lactose est plutôt un phénomène qui est "à la mode" au lieu d'être quelque chose de purement physiologique. C'est pour cette raison que l'on en parle beaucoup même dans les pays qui ne sont pas connus pour leur intolérence au lactose, e.g. aux Etats-Unis, en France, etc.

Une autre explication possible est une manque des données pertinentes en certaines langues, par exemple, en Slovaque. Cela rend la comparaison encore plus difficile.