Master TAL 16-17 Projet Encadré 1Le mot "végétarien" sur le web

Analyse des résultats

Synthèse du travail

A partir du mot “végétarien” en anglais ou en français, on a pu trouver des résultats très intéressants. Il y a plusieurs mots attirés par ce mot-clef, comme par exemple “régime”, “alimentation”, “santé/health”, “recette/recipes” et “équilibre/balance”. Dans le contexte français, nous pouvons constater que le mot “végétarien” est lié à la santé et la cuisine (ce qui est peut-être le résultat des sites sur les recettes qu'on a choisis.). Il y a beaucoup de discussion sur les bénéfices du végétarisme en tant que régime ou pratique alimentaire. Contrairement aux contextes chinois ou arabe qui sont fortements influencés par leurs réligions qui s'appuient sur le régime alimentaire, les locuteurs du français et de l'anglais ont moins de recours aux textes religieux.
Une des principales différences remarquables entre les deux langues est qu'en anglais nous avons le mot "vegan" et en français ce terme n'est pas employé. En effet, on distingue entre "vegan" qui exclut tout produit laitier ou d'animal et "vegetarian" qui les tolère en général. Ceci est probablement lié aux choix des sites, mais c'est vrai que dans les sociétés anglophones on est plus stricte au niveau des terminologies pour désigner les différents types du végétarisme. En français, nous retrouvons également les mots comme "association" qui est le résultats de nos sources URL. Nous avons pris des sites des associations et des forums.
En chinois, nous avons cherché dans le Trameur ces cinq mots suivants 素食/素食主义/素食主义者/素食者. On peut considérer ces mots chinois dans le même niveau sémantique. La seule différence entre eux est le suffixe de “isme” ou “iste”. On a deux corpus chinois traités par Trameur. Il faut mentioner que Trameur ne traite pas assez bien les ponctuations chinoises. Il ne peut pas les reconnaître comme les délimiteurs mais toujours les prendre comme les mots (même si l’on a déjà copie coller les ponctuations chinoises dans le paramètre “délimiteurs”).
En général, le végétarien dans le contexte chinois et au monde chinois est plutôt un choix individuel. Il a une source historique culturelle et religieuse mais il s’adapte plus au goût moderne des chinois. Le végétarien est un choix pour la santé, une tendance mondiale ou une attitude de vie et esthétique mais jamais une vague de toute la population chinoise, ni porte-il aucune sens engagé. L’un des deux corpus est celui du contexte autour du mot clé. En négligeant les ponctuations et les mots outils, on constate que les mots qui ont la cooccurrence plus fréquente sont les verbes modaux, par exemple “pouvoir”, “vouloir”, “savoir”. Elles expriment la motivation du choix végétarien. Deuxième rang sont les mots qui ont rapport avec l’alimentation et la nutrition, e.g. “animal”, “plante”, “vitamin”. C’est-à-dire, on concerne plus sur l’effet du végétarien, à la fois bon et mal. Troisièmement, ce sont les noms propres de lieu, “Chine”, “Japon”, “le monde”, “Hong Kong”, etc. On suppose que c’est parce que l’on a habitude de se référer à la pratique des autres pays au monde. De plus, cela indique que les chinois évaluent beaucoup le moyen de vie des gens asiatiques mais qui sont beaucoup plus occidentalisés. Les suivants sont les mots concernant la culture et la maintenance de santé. On les considérer comme dans même groupe parce que le moyen de la maintenance de santé est déjà un grand sujet dans la culture traditionnelle chinoise. (Consultez export-liste-contexte.txt pour plus de détails; fréquence>=8, seuil 3) Cooccurrence graphique sur ce site.
Le corpus de dump texte contient tout le texte des sites et donc beaucoup plus de mots outils et de ponctuations reconnus comme les mots. La cooccurrence des mots est assez semblable à celle du corpus du contexte. Mais cette fois-ci, on voit beaucoup de nouveaux mots comme “la Terre”, “l’environnement”, “la famine”, “la population”, “la nature”, “la vie”, “bouddhiste”, “la pitié”, “la protection”. On peut dire que les textes concernant le végétarien aux sites d’internet chinois concernent aussi l’éthique et les pensées religieuses. Mais cela n’apparait que dans le texte global au lieu d’avoir une distance étroite avec le mot “素食”.
Pour l'arabe, en utilisant le Trameur, nous pouvons constater que les mots qui reviennent le plus autour du mot végétarien sont les mots "régime" (النظام) et "alimentaire/alimentation" (غذائي \ غذاء), ce qui est relativement logique vu que le mot recherché est 'végétarien' (نباتي).
Le troisième mot le plus utilisé est (طرف) , c'est à dire, dans ce contexte, "par" ; en effet, beaucoup des URLS choisies pour l'arabe sont des pages contenant des recettes, et c'est donc le moyen de dire de qui est telle ou telle recette.
Dans l'analyse des fichiers contextes, on retrouve principalement les mots nouveau (جديد ) ,genre (نوع) , groupe (جميعة) .
Le courant végétarien n'est pas encore très développé dans le monde arabe, en effet, la plupart des plats traditionnels contiennent de la viande et il est très difficile de se détacher des traditions. La minorité qui tente de ne pas manger de viande va s'appuyer sur les textes religieux pour justifier son choix.
On peut donc comprendre aisément l'utilisation des verbes "croire" (اعتقد) et "suivre" (يتبع), puisque le courant végétarien est à la limite d'un choix religieux dans le monde arabe ; d'ailleurs, en analysant les fichiers dump, le mot "haram" (interdit) revient beaucoup , ainsi que le mot "hallal" (licite).
Dans les contextes, on retrouve aussi les mots "conseils" (نصيحة) et "forum" (منتدية), probablement du au choix des URLS.
Cependant, cela peut aussi indiquer que le phénomène se développe et que de plus en plus de gens s'intéressent à ce choix alimentaire et posent des questions à ce propos. Enfin, un des mots qui revient beaucoup dans les fichiers contexte est le mot "muscles" (عضلات) ;
en effet, de nombreuses personnes se posent des questions quand aux apports nutritionnels lié à ce choix alimentaire, est les conséquences pour les sportifs. Ils cherchent par ailleurs des alternatives aux protéines animales, c'est pourquoi on retrouve aussi beaucoup le mot "compenser" (يعوض) .
L'analyse des fichiers dump présente des résultats similaires. Cependant, on peut y ajouter deux éléments intéressants.
On constate en premier lieu que la première personne revient de manière récurrente et sous de nombreuses formes.
Cela peut s'expliquer grace au type d'URLs choisi (blogs...) mais cela indique aussi un choix très personnel.
Enfin, on retrouve de nombreux noms de légumes, ce, du fait que les URLs choisies contiennent beaucoup de recettes.

Merci!!