Le mot "migrant" : variations sur le web

Présentation du projet

Bienvenue sur notre site!

Celui-ci présente le projet de trois étudiantes en Ingénierie Linguistique (Sorbonne-Nouvelle) :

Le but du projet en quelques lignes :

Ce travail a été élaboré sous la direction de Serge FLEURY (Paris III) et Jean-Michel DAUBE (INALCO). Le but de ce travail était de réfléchir à une problématique linguistique, en comparant plusieurs langues au choix. La tâche s'est divisée en plusieurs parties. Une fois la problématique décidée, nous devions constituer un corpus écrit pertinent dans chacune des langues, et ce uniquement sur le web. Par la suite, il fallait automatiser la présentation des corpus sous forme de tableaux, afin de pouvoir procéder aux analyses. Il s'agissait de récupérer les textes bruts à partir de sites web, de vérifier les problèmes éventuels d'encodages, et de générer des tableaux HTML, tout cela à l'aide de programmes informatiques écrits pas nos soins. Pour finir, nous devions étudier les cooccurrences linguistiques ainsi que les statistiques à partir de logiciels spécialisés.

Notre sujet d'étude :

Nous avons commencé par créer un blog sur lequel nous mettions toutes les avancées de notre projet :


Blog Mot "Migrant", variations sur le web


Nous vous invitons à aller le visiter. Il retrace la progression de notre script, les différents exercices pour apprendre à gérer le langage informatique, ainsi que les problèmes rencontrés et nos méthodes de travail

Le sujet de notre étude repose sur l'analyse du terme « migrant » d'un point de vue sociolinguistique, au sein des trois langues suivantes : le russe, l'anglais, et le français. Nous avons commencé par observer les différentes acceptions de ce terme, puis nous avons listé ses différents synonymes dans chacune des langues, en nous posant les questions suivantes :

Afin de répondre à ces questions, nous avons constitué un corpus écrit pour chaque langue. Pour cela, nous nous sommes aidées d'internet en cherchant, via Google, des sites plus ou moins officiels, que nous avons jugé pertinents. Nous avons collecté ainsi une soixantaine d'URLs par langue choisie.

Concernant l'observation des discours politiques, nous nous sommes rapprochées de sites officiels comme ceux d'associations ou des sites gouvernementaux. Concernant l'actualité, nous avons gardés des sites de presse réputés, quelque soit la subjectivité politique si tel était le cas. Pour l'observation sur les termes utilisés au quotidien par les citoyens, nous nous sommes interessées à des sites populaires tels que des forums ou des blogs, où l'expression des utilisateurs reste libre. Nous avons préféré ne choisir qu'un seul pays représentatif d'une langue, car la culture peut varier d'un état à l'autre. En ce qui concerne l'anglais, nous nous en sommes tenues au Royaume-Uni ; pour le français, nous sommes restées sur la France.

Ce premier travail terminé, nous avons créé un programme (voir la rubrique Script) capable de générer des tableaux HTML, d'aspirer des pages web, de traiter nos données en récupérant les textes bruts, et de récupérer le contexte du mot sur lequel nous avons decidé de travailler.

Pour finir, nous nous sommes appliquées à une analyse appronfondie de nos données, ainsi qu'à la création de ce présent site web qui retrace les résultats obtenus. Nous vous invitons à surfer dans les différentes rubriques qui présentent notre travail plus en détail.

L'organisation :

Un groupe de trois personnes nécessite de l'organisation. Nous nous sommes donc assignées une langue à chacune : Uliana s'est occupé de l'anglais, Varvara du russe, et Edwige du français. Concernant le programme, chacune en a constitué un en proposant des options différentes qui ont donné lieu à discussions. Nous avons finalement gardé le script le plus efficace : celui d'Uliana, qui a soigneusement commenté les lignes de code pour éclaircir les requêtes. Le blog a été alimenté par nous trois, mais il a principalement été suivi par Varvara (pour la rubrique "exercices" notamment) et Uliana (pour la partie "Etude linguistique" notamment) ; Edwige s'est chargée de la rubrique "présentation". Le travail sur Le Trameur a principalement été effectué par Uliana, mais chaque étudiante a fait l'analyse de sa langue assignée. Le site a été généré par Edwige, qui s'est aussi chargée d'une partie de la rédaction et des relectures.

Master Ingénierie Linguistique - Présentation du projet