Sujet

Ce projet est un exercice dans le cadre du cours Programmation et Projet Encadré de la première année de master en Traitement automatique des Langues, encadré par Serge Fleury et Jean-Michel Daube, que nous remercions pour leur aide précieuse. Il consiste à analyser le "comportement" d'un mot, ou d'un groupe de mots, dans différentes langues. C'est à dire à analyser son environnement, son contexte d'utilisation... Pour cela, nous devons mettre en oeuvre une série de traitements semi-automatiques de données, principalement textuelles, pour les récupérer, les analyser, et finalement présenter nos résultats sur ce site.

Le projet peut donc se résumer grossièrement par les étapes suivantes :

1 - récupération d'une liste d'URLs contenant le mot à analyser

2 - récupération du contenu textuel de ces URLs et traitement si nécessaire (encodage etc)

3 - analyse des données obtenues

4 - présentation des résultats via création d'un site

L'étape 2 (et la 1 aussi, préférablement) sont réalisées via un ou plusieurs scripts bash. Pour l'étape 3, nous avons utilisé des scripts bash, le site nuagesdemots et le logiciel en ligne iTrameur. Enfin, pour créer le site, nous nous sommes aidés de templates de OS Templates .

Choix du mot

Le choix du mot a été laborieux… Emmett voulait appliquer son diplôme en sciences politiques en traitant un thème géopolitique dans ce projet. Nous avons donc d’abord pensé à « Palestine », puis à « Syrie », que nous pensions plus intéressant à traiter dans le cadre de la langue russe. Nous avons ensuite pensé à d’autres mots qui s’inscriraient dans une analyse géopolitique : Union Européenne, Brexit, Marine Le Pen… Mais nous trouvions que ces mots, bien qu’intéressants d’un point de vue géopolitique, ne présentaient pas de challenge sur le point de vue purement linguistique et de la traduction en tant que noms propres. Nous avons donc cherché des termes qui pourraient, en plus de présenter un intérêt sur le plan géopolitique, ou bien sociolinguistique, présenter une difficulté dans la définition du mot en lui-même, et dans la traduction d’une langue à l’autre : c’est à dire des mots qui recouvriraient plusieurs concepts, et n’auraient pas toujours d’équivalents clairs d’une langue à l’autre. Nous avons pensé à féminisme, race, et sexualité.

Nous avons décidé que pour traiter le sujet à partir du japonais, russe, arabe, anglais et français, le mot ‘sexualité’ était plus intéressant, car il n'a pas nécessairement d'équivalent exact en japonais, par exemple. De plus, le concept même de "sexualité", de ce que ce terme englobe et représente, varie beaucoup d'une culture à une autre. Il semblait donc intéressant d'observer le comportement de ce mot/ses équivalents d'une langue à l'autre, et de voir si les variations culturelles se traduisent dans la langue et l'environnement du mot.

Nos hypothèses

Nous nous attendions à trouver des environnements différents pour le mot sexualité en fonction de la langue. En français, anglais et espagnol, où la sexualité est un terme assez récurrent des conversations, notamment sur internet, nous nous attendons à trouver essentiellement le mot sexualité dans le contexte de vie sexuelle, de conseils pour l’améliorer, du plaisir, mais également dans le contexte de la médecine (maladies etc). Nous nous attendons aussi à trouver des résultats concernant l’orientation sexuelle, peut-être même la théorie des genres.

La choix d’étudier ce mot en arabe, russe et japonais sera aussi intéressant d’un point de vu culturel et social. Dans une portion importante des pays arabophones, par exemple, les relations homosexuelles ou pré-maritales peuvent être passibles de lourdes sanctions légales, et le comportement sexuel dans le monde arabe a tendance à être perçu comme tabou d’un point de vue occidental. Nous nous attendions donc à ce que la sexualité soit traitée plus dans le contexte des relations maritales ou bien d’un point de vu moral ou religieux sur les sites en langue arabe.

La russosphère semblait également pouvoir être une étude de cas intéressant. Bien que la Russie soit un pays relativement laïc qui a légalisé les relations homosexuelles peu après la dissolution de l’Union soviétique, beaucoup d’encre a coulé ces dernières années au sujet de la résurgence des valeurs chrétiennes dans la politique russe, ce qui a notamment produit la fameuse loi de 2013 qui a interdit la « promotion de relation sexuelle non traditionnelle auprès des mineurs » et qui a été un sujet polémique parmi les défenseurs des droits de l’homme. Nous attendions donc à ce que les résultats en langue russe se trouvent à mi-chemin entre les résultats arabes et les résultats anglais et français, traitant non seulement la vie et santé sexuelle, mais aussi le comportement sexuel en termes de valeurs morales traditionnelles.

Enfin, nous avons choisi d’explorer les contextes dans lequel la sexualité est traitée dans le discours japonais. La sexualité au japon est depuis longtemps un sujet préféré des sexologues et sociologues, en grande partie à cause d’une série de comportements et de phénomènes sociaux qui sont rares voire tabou en occident, notamment la consommation relativement ouverte de jeux vidéos érotiques et de dating simulators; le phénomène des hikikomori, jeunes hommes célibataires qui choisissent de vivre coupés du monde; et les enjeux de fertilité posés par une population rapidement vieillissante. Nous nous attendons à ce que la sexualité soit traitée dans une variété de contextes beaucoup plus large qu’en occident, allant de la fertilité et du bien-être sexuel, jusqu’à la romance numérique et la pornographie, en passant par la fertilité et les relations maritales.

Nous avions conscience que toutes nos hypothèses pouvaient être biaisées, puisque nous sommes tout de même sous l’influence d’un point de vue occidental. Nous étions donc impatients de voir si les résultats iraient dans le sens nos hypothèses ou non.

Répartition du travail

Il nous semblait que le but premier de ce projet, outre le fait de travailler en équipe, était de nous familiariser davantage avec la programmation, notamment en bash, de développer des stratégies pour répondre à des requêtes de manière semi-automatique, et bien sûr d'effectuer une petite analyse linguistique.

Nous avons donc décidé de nous répartir le travail de la manière suivante : deux langues par personne, afin d'exploiter les connaissances en langues de chacun, mais aussi pour que l'on puisse tous les 3 s'entraîner à la programmation, être libres de développer notre propre approche pour aboutir à la création du tableau d'URL, et surtout pour pouvoir faire preuve de créativité. Nous avons cependant communiqué tout le long du semestre, nous sommes entraidés lorsque nous étions dans l'embarras. Nous nous sommes aussi concertés avant de prendre toute décision importante, et avons travaillés tous les 3 ensemble sur les tâches communes telle que la création du blog de travail etc...

L'archive que nous rendons contient donc un répertoire de travail global, contenant lui même chacun de nos 3 répertoires de travail, avec les programmes utilisés, nos tableaux, nos résultats... Les explications plus détaillées sur les différents programmes créés et les difficultés rencontrées par chacun sont disponibles sur notre blog de travail.

La répartition du travail est donc la suivante :

- Kristina : russe et espagnol

scripts de Kristina : script tableau

- Emmett : anglais et arabe

scripts d'Emmett : script tableau

- Camille : français et japonais

scripts de Camille : récupération d'URLs, script tableau, segmenteur du japonais, script concaténation