La vie multilingue de mot champagne
Le projet
L'objectif de ce projet était de choisir un mot ou une expression pour l'analyser dans 3 langues différentes (le russe, le français et l'anglais), confronter les points de vue à travers chaque langue.

Après bien des réflexions, notre choix s'est porté finalement sur l'étude du mot champagne à travers la problématique suivante: Comment et pourquoi parle-t-on du champagne depuis la France jusque dans les pays anglophones et russophones?

Il a d'abord fallu collecter une cinquantaine d'URLs en évitant de mélanger les sources (par exemple pour le champagne, nous avons évité au maximum de collecter des pages trop commerciales car jugées non pertinentes).

L'étape la plus technique était la rédaction du script en bash et en html. C'est le coeur du projet qui sert à extraire les données textuelles contenues dans les pages webs. Le script fonctionne par étapes: il prend en compte différents cas de figure pour aspirer correctement la page web ciblée.
C'est ce programme qui permet de créer un tableau (un pour chaque langue) contenant les liens des urls, les pages webs aspirées, les conversions d'encodage quand initialement il n'est pas en utf-8.

En parallèle à la construction du programme, nous devions mettre à jour un blog créé pour ce projet afin que nos professeurs puissent suivre l'évolution de notre travail. Il récapitule sous forme d'articles les différentes étapes du script, les problèmes rencontrés au cours de la rédaction et du lancement du programme. Vous pouvez y accéder via ce lien.

La dernière étape du projet était plus tournée vers la linguistique. Nous devions analyser le terme choisi à l'aide d'outils de textométrie comme iTrameur. Wordle a servi essentiellement à faire un visuel des coocurrents du mot analysé.
Made on
Tilda