Qui sommes-nous ?

Voici pour commencer, une petite présentation de notre équipe, en guise de bienvenue.

Nous sommes trois étudiants de première année du Master TAL (Traitement Automatique des Langues) dispensé en partenariat par trois universités : Paris 3, Paris 10 et l'Inalco. Nous venons tous d'horizons différents et maîtrisons différentes langues, notamment l'anglais, le chinois et le japonais. Chaque étudiant de notre groupe étant locuteur d'une langue que les autres ne connaissaient pas, nous avons pu tirer profit de cette diversité dans notre étude. Nous nous sommes ainsi associés dans le cadre du cours "Programmation et Projet encadré" dispensé par Paris 3. C'est au fil de ces cours que nous avons défini notre objet d'étude ainsi que ses modalités et que nous avons appris à maîtriser les connaissances et les outils qui nous ont permi d'accèder à l'aboutissement de ce projet.

Notre objet d'étude

L'intitulé du projet sur lequel nous travaillons est le suivant : "La vie multilingue des mots sur le web". Ce dernier consiste à étudier l'utilisation, l'évolution d'un ou plusieurs mots ou syntagmes dans différentes langues. Notre dévolu s'est jeté sur le mot "Cuisine" dans son sens gastronomique. Ayant tous des habitudes alimentaires différentes liées à notre culture, notre mode de vie ou encore notre expérience, nous avons pris conscience de la multitude de stéréotypes façonnant l'image de la gastronomie que chaque pays possède vis-à-vis d'un autre. Nous voulions ainsi savoir si ces stéréotypes étaient également véhiculés par internet, savoir de quelle façon ils ont pu évoluer sur la toile et étudier leur réccurence.

La méthode

Le cursus de notre Master étant le traitement automatique des langues, il est évident que nos recherches devaient être épaulées par diverses ressources informatiques. En premier lieu par l'utilisation d'outils existants sur le système d'exploitation Linux. Outils que nous utilisons dans un script écrit grâce au cours de Paris 3 et qui nous permet de traiter automatiquement les données récoltées. Dans un second temps nous avons eu recours à des outils d'analyse textométrique tel que iTrameur ou encore Lancsbox. Nous avons également utilisé des outils liés au moteur de recherche de Google, Trends et Ngram Viewer.

La première étape de notre étude consistait à récolter un maximum de données textuelles, des corpus de pages webs où figuraient des informations relatives à notre problématique. Nous avons donc du définir un périmètre de recherche. Cela a commencé par la sélection d'un certain nombre de syntagmes. Comme notre groupe maîtrisait l'anglais, le chinois, le français et le japonais, nous avons réduit l'échelle de notre étude aux quatre pays d'origine de ces langues. Nous avons donc pu définir quatre syntagmes à rechercher par langue, un pour la cuisine de chaque pays, afin d'étudier la vision des individus de chaque pays vis-à-vis de chaque autre.

Les syntagmes choisis sont les suivants :

Langue	Syntagme
Français	Cuisine française	Cuisine anglaise	Cuisine chinoise	Cuisine japonaise
Anglais	French cuisine	English cuisine	Chinese cuisine	Japanese cuisine
Chinois	法餐	英国菜	中餐	日料
Japonais	フランス料理	イギリス料理	中華料理	和食

Blog

Tout au long du projet, nous avons tenu un blog pour décrire notre avancement, nos difficultés et leur résolution. Il est consultable ici.

Les cuisines du TAL

Qui sommes-nous ?

Notre objet d'étude

La méthode

Blog