Notre projet se situe dans le cadre du cours "Programmation et Projet Encadré" du Master Ingénierie Linguistique. Il est dirigé par Serge Fleury, Jean-Michel Daube et Rachid Belmouhoub. Ce projet a pour but la "Mise en œuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif." (ref : site du cours).

Nous avons choisi de travailler sur la vie du mot "image" sur le web, en français (par Marine) et en russe (par Yulia) pour les quatre sens suivants :


1. La représentation de quelque chose grâce aux beaux-arts (en sculpture, peinture, gravure...).

2. La représentation d'un objet dans l'eau, dans un miroir...

3. Une illustration.

4. La représentation mentale que l'on se fait de quelque chose ou de quelqu'un.

On pourra noter que si nous utilisons le même mot pour désigner ces quatre sens en français, ce n'est pas le cas dans toutes les langues, notamment en russe.



Après avoir constitué différents corpus d'urls pour chaque sens du mot "image" en français et en russe, nous les avons traitées à l'aide de scripts en bash. Ce traitement consiste à les placer dans des tableaux de liens en fonction de leur sens, puis à aspirer chaque url pour placer la page dans un dossier. Nous les avons aussi traitées pour qu'elles soient "dumpées" : c'est-à-dire que nous avons récupéré leur contenu purement textuel. Nous avons pris soin de convertir la page en utf-8 si ce n'était pas déjà le cas. L'étape suivante du traitement des urls a été de récupérer le contexte textuel du mot "image" dans ces pages dans les formats texte et html puis de compter le nombre d'occurrences de ce mot dans chaque page web. Le résultat de ce traitement a été placé dans une page html.



Ce traitement nous a permis de faire des nuages de mots et des nuages de mots arborés.



Ainsi que des traitements lexicométriques à l'aide du Trameur.