Projet

More Website Templates @ TemplateMonster.com - June 24, 2013!

Choix du sujet

Le nom du projet: la vie multilingue de mot sur le web.

Il s'agit de choisir un mot, puis trouver sa représentation dans différentes langues en prenant appui sur les ressources web. Après quelques détours, nous avons trouvé une direction de la chasse du mot : trouver un mot qui est disputable, intéressant et le plus important : un mot avec une implication différente dans chaque langue. Nous avons donc fait un remue-méninges pour trouver des polémiques courants dans le monde entier.

Finalement, le mot « gay mariage / mariage gay / 同性恋婚姻 » nous est survenu. Totalement accepté par les français, le mariage gay est partiellement autorisé dans certaines régions des Etats-Unis, alors que cela reste un tabou en Chine qui est loin d’être prête pour la volonté de mariage des homosexuels. C'est un beau contraste. En plus, les LGBT sont de plus en plus parlés au cours de ces dernières années. On lit des articles presque tous les jours dans toutes les langues; il n'est donc pas compliqué de trouver de bonnes ressources. Nous croyons que les données numériques peuvent nous décrire la situation de mariage gay dans les différents pays et fournir les points de vue variés vers ce sujet avec l’aide de statistique.

Déroulement du projet

Lien vers le blog --->

Dans notre projet, la linguistique et la programmation sont étroitement liées l’une à l’autre. Notre objectif est d'écrire un programme, qui pourrait parcourir des sites web concernant le mot que nous avons choisi, les télécharger, et extraire le contexte autour du mot choisi. Le but ultime est l’interprétation contextuelle du mot en question, ainsi que sa comparaison dans les différentes langues et cultures (français-anglais-chinois). Enfin, pour analyser les corpus, nous allons utiliser un logiciel de textométrie (iTrameur).

D'abord, nous allons sur Google et nous choisissons 50 URL pour chaque langue. Le mot clé est « mariage gay » en trois langues ainsi que toutes les variations possibles. Concernant le type de données, nous n'avons pris que des articles, ceux-ci ayant plus de texte et donc une plus grande intensité d'informations. Ensuite, nous construisons un corpus pour chaque langue. Nous allons utiliser un script en bash qui permet d'extraire l'encodage, de transcoder en UTF-8 le cas échéant, de récupérer le texte et de reconstituer le contexte. Finalement, les corpus nettoyés et structurés seront passés à iTrameur pour les analyses textométriques. Les url et les scripts utilisés sont présentés dans la page Archives, ainsi que les tableaux générés. Les résultats d'analyse se trouvent sur la page Analyses.