Qui sommes-nous ?
Voici pour commencer, une petite présentation de notre équipe, en guise de bienvenue.
Nous sommes trois étudiants de première année du Master TAL (Traitement Automatique des Langues) dispensé en partenariat par trois universités : Paris 3, Paris 10 et l'Inalco. Nous venons tous d'horizons différents et maîtrisons différentes langues, notamment l'anglais, le chinois et le japonais. Chaque étudiant de notre groupe étant locuteur d'une langue que les autres ne connaissaient pas, nous avons pu tirer profit de cette diversité dans notre étude. Nous nous sommes ainsi associés dans le cadre du cours "Programmation et Projet encadré" dispensé par Paris 3. C'est au fil de ces cours que nous avons défini notre objet d'étude ainsi que ses modalités et que nous avons appris à maîtriser les connaissances et les outils qui nous ont permi d'accèder à l'aboutissement de ce projet.
Notre objet d'étude
L'intitulé du projet sur lequel nous travaillons est le suivant : "La vie multilingue des mots sur le web". Ce dernier consiste
à étudier l'utilisation, l'évolution d'un ou plusieurs mots ou syntagmes dans différentes langues. Notre dévolu s'est jeté sur le mot "Cuisine" dans son sens gastronomique.
Ayant tous des habitudes alimentaires différentes liées à notre culture, notre mode de vie ou encore notre expérience, nous avons pris conscience de la multitude de stéréotypes façonnant l'image de la gastronomie
que chaque pays possède vis-à-vis d'un autre. Nous voulions ainsi savoir si ces stéréotypes étaient également véhiculés par internet, savoir de quelle façon ils ont pu évoluer sur la toile et étudier leur réccurence.
La méthode
Le cursus de notre Master étant le traitement automatique des langues, il est évident que nos recherches devaient être épaulées par diverses ressources informatiques. En premier lieu par l'utilisation d'outils existants sur le système d'exploitation
Linux. Outils que nous utilisons dans un script écrit grâce au cours de Paris 3 et qui nous permet de traiter automatiquement les données récoltées. Dans un second temps nous avons eu recours à des outils d'analyse textométrique tel que
iTrameur ou encore
Lancsbox.
Nous avons également utilisé des outils liés au moteur de recherche de Google,
Trends et
Ngram Viewer.
La première étape de notre étude consistait à récolter un maximum de données textuelles, des corpus de pages webs où figuraient des informations relatives à notre problématique. Nous avons donc du définir un périmètre de recherche.
Cela a commencé par la sélection d'un certain nombre de syntagmes. Comme notre groupe maîtrisait l'anglais, le chinois, le français et le japonais, nous avons réduit l'échelle de notre étude aux quatre pays d'origine de ces langues. Nous avons donc pu définir quatre
syntagmes à rechercher par langue, un pour la cuisine de chaque pays, afin d'étudier la vision des individus de chaque pays vis-à-vis de chaque autre.
Les syntagmes choisis sont les suivants :
Langue | Syntagme | |||
Français | Cuisine française | Cuisine anglaise | Cuisine chinoise | Cuisine japonaise |
Anglais | French cuisine | English cuisine | Chinese cuisine | Japanese cuisine |
Chinois | 法餐 | 英国菜 | 中餐 | 日料 |
Japonais | フランス料理 | イギリス料理 | 中華料理 | 和食 |
Blog
Tout au long du projet, nous avons tenu un blog pour décrire notre avancement, nos difficultés et leur résolution. Il est consultable
ici.