Introduction

Un petit aperçu de l'analyse

Bienvenue sur notre site web !

Ici, vous pourrez découvrir l’étude du comportement d’un mot-clé sur le web multilingue que nous avons menée à bien dans le cadre de notre cours « Projet encadré » de Master 1 de Traitement Automatique des Langues.

Notre analyse porte sur le mot-clé « salarié expatrié », une notion intéressante car si elle exprime un concept reconnu dans le monde entier et donc exprimé dans nos différentes langues de travail, ses connotations peuvent être très variables selon la politique, la culture et l’économie de chaque pays.

Nous avons travaillé en français, anglais, chinois, coréen et russe. Ainsi, nos observations linguistiques balaieront une palette variée de pays (différence d’utilisation de notre mot-clé) et de langues (différence d’alphabet et donc de traitement informatique des caractères).

De la formation du corpus par aspiration de page web depuis leurs URLs à la mise en forme de ce site web, nous avons eu l’occasion d’utiliser de nombreux outils informatiques. Nous avons écrit des scripts en Bash (langage de la console du système UNIX) mais aussi en Python (module JIEBA - traitement spécifique pour la segmentation du chinois). Après récupération du corpus dans chacune des langues, nous lui avons appliqué une analyse grâce à l’outil textométrique iTrameur.

Pour aller plus loin, vous pouvez vous rendre sur notre blog WordPress (onglet « blog » sur le site). Nous y avons rassemblé dans nos journaux de travail tout le processus qui a abouti à la création de ce site web. Vous y trouverez toutes les ressources utilisées, les problèmes auxquels nous avons été confrontés et les solutions que nous avons proposées, les astuces que nous avons mises en place au cours de l’élaboration de ce projet.

N’hésitez pas à nous poser toutes les questions qui vous viendront à l’esprit grâce à la partie « contact » du site !

Merci pour votre visite ! 

Alexandra Courtaux

s'occuper de l'analyse du corpus russe


Jiaqi Xu

s'occuper de l'analyse du corpus anglais et chinois


Yihan Qu

s'occuper de l'analyse du corpus français et coréen