Les cuisines du TAL

Par Arthur, Elodie et Xiaoxia

Image


Qui sommes-nous ?


Voici pour commencer, une petite présentation de notre équipe, en guise de bienvenue.

 Nous sommes trois étudiants de première année du Master TAL (Traitement Automatique des Langues) dispensé en partenariat par trois universités : Paris 3, Paris 10 et l'Inalco. Nous venons tous d'horizons différents et maîtrisons différentes langues, notamment l'anglais, le chinois et le japonais. Chaque étudiant de notre groupe étant locuteur d'une langue que les autres ne connaissaient pas, nous avons pu tirer profit de cette diversité dans notre étude. Nous nous sommes ainsi associés dans le cadre du cours "Programmation et Projet encadré" dispensé par Paris 3. C'est au fil de ces cours que nous avons défini notre objet d'étude ainsi que ses modalités et que nous avons appris à maîtriser les connaissances et les outils qui nous ont permi d'accèder à l'aboutissement de ce projet.


Notre objet d'étude


 L'intitulé du projet sur lequel nous travaillons est le suivant : "La vie multilingue des mots sur le web". Ce dernier consiste à étudier l'utilisation, l'évolution d'un ou plusieurs mots ou syntagmes dans différentes langues. Notre dévolu s'est jeté sur le mot "Cuisine" dans son sens gastronomique. Ayant tous des habitudes alimentaires différentes liées à notre culture, notre mode de vie ou encore notre expérience, nous avons pris conscience de la multitude de stéréotypes façonnant l'image de la gastronomie que chaque pays possède vis-à-vis d'un autre. Nous voulions ainsi savoir si ces stéréotypes étaient également véhiculés par internet, savoir de quelle façon ils ont pu évoluer sur la toile et étudier leur réccurence.


La méthode


 Le cursus de notre Master étant le traitement automatique des langues, il est évident que nos recherches devaient être épaulées par diverses ressources informatiques. En premier lieu par l'utilisation d'outils existants sur le système d'exploitation Linux. Outils que nous utilisons dans un script écrit grâce au cours de Paris 3 et qui nous permet de traiter automatiquement les données récoltées. Dans un second temps nous avons eu recours à des outils d'analyse textométrique tel que iTrameur ou encore Lancsbox. Nous avons également utilisé des outils liés au moteur de recherche de Google, Trends et Ngram Viewer.

 La première étape de notre étude consistait à récolter un maximum de données textuelles, des corpus de pages webs où figuraient des informations relatives à notre problématique. Nous avons donc du définir un périmètre de recherche. Cela a commencé par la sélection d'un certain nombre de syntagmes. Comme notre groupe maîtrisait l'anglais, le chinois, le français et le japonais, nous avons réduit l'échelle de notre étude aux quatre pays d'origine de ces langues. Nous avons donc pu définir quatre syntagmes à rechercher par langue, un pour la cuisine de chaque pays, afin d'étudier la vision des individus de chaque pays vis-à-vis de chaque autre.

Les syntagmes choisis sont les suivants :

Langue Syntagme
Français Cuisine française Cuisine anglaise Cuisine chinoise Cuisine japonaise
Anglais French cuisine English cuisine Chinese cuisine Japanese cuisine
Chinois 法餐 英国菜 中餐 日料
Japonais フランス料理 イギリス料理 中華料理 和食


Blog


Tout au long du projet, nous avons tenu un blog pour décrire notre avancement, nos difficultés et leur résolution. Il est consultable ici.