La vie Multilingue du mot "Révolution" sur le Web
Projet encadré et Programmation
Réalisé par S. FEREDJ et D. AOUINE

Menu:

Présentation

Nous sommes un groupe de deux étudiantes en M1 Ingénierie Linguistique à Paris3: FEREDJ Siham et AOUINE Doria.

Notre choix s'est porté sur le mot 'révolution' en Français (FEREDJ Siham) et en Arabe (AOUINE Doria).Ce choix était principalement aléatoire sans prendre en considération la polysémie du mot.

Ayant rencontré des difficultés avec ma binôme j'ai décidé de travailler toute seule. Dans ce qui suit je vais vous présenter un travail de traitement semi-automatique en français

les étapes du projet

première étape

Nous avons sélectionné le mot "révolution" car il est d'actualité et aussi polysémique. Nous avons pris 50 urls contenant ce mot dans les deux langues.

Deuxième étape

Nous avons utilisé la commande wget afin de stocker les pages aspirées.

Troisième étape

Grâce à la commande Lynx nous avons voulu extraire le texte uniquement pour transformer les fichiers HTML en fichiers textes c-à-d sans balises HTML. Cette éxtraction a marché pour les pages en français.

Quatrième étape

La quatrième étape consiste à utiliser la commande egrep Celle-ci permet de chercher les lignes contenant le mot en question. Nous l'avons donc executée avec succès pour les pages en français.

Cinquième étape

Nous avons installé minigrepmultilingue pour convertir les fichiers de la quatrième étape en contexte au format html.

Sixième étape

Création du site internet.

Tous les documents concernant les pages en français se trouvent dans le dossier PROJET-MOT-SUR-LE-WEB.