Présentation du projet

Co-habilité par l’Inalco, l’Université Paris Nanterre et l’Université Sorbonne Nouvelle - Paris 3, le master Traitement Automatique des Langues (TAL) propose le cours Projet Encadré 1 durant le premier semestre. Le projet consiste en la réalisation d’un script afin de récupérer les informations issues d’un corpus web multilingue et y analyser un terme en particulier.

Nous travaillerons sur le mot « immigration » dans 4 langues différentes (français, espagnol, arabe et chinois). Nous avons choisi de travailler sur ce mot, car il renvoie à un sujet d’actualité récurrent. Ce mot est très socialement connoté, connotation qui varie énormément selon la localisation géographique.

Étant toutes les trois originaires de continents différents, et ayant baigné dans des milieux linguistiques différents, nous maîtrisons des langues ( l’espagnol, l’arabe et le chinois ) parlées dans des pays où le contexte migratoire risque d’être très différent. Effectuer une analyse linguistique sur des pages web issues de chacune de ces langues serait donc pertinent, car cela nous permettrait d’identifier des propriétés socio-culturelles différentes. Nous avons utilisé des outils diverses en cours de réaliser notre projet.

L’hypothèse initialement formulée était que les corpus tirés de pays connus en tant que terre d’accueil, comme le corpus français ou espagnol, présenteraient une vision négative du phénomène migratoire. Les corpus chinois et arabe, de part les pays dont ils proviennent, auraient une vision plus neutre de l’immigration, il serait même présenté comme désirable d’immigrer soi-même.