Nous sommes un groupe de deux étudiantes en M1 Ingénierie Linguistique à Paris3: FEREDJ Siham et AOUINE Doria.
Notre choix s'est porté sur le mot 'révolution' en Français (FEREDJ Siham) et en Arabe (AOUINE Doria).Ce choix était principalement aléatoire sans prendre en considération la polysémie du mot.
Ayant rencontré des difficultés avec ma binôme j'ai décidé de travailler toute seule. Dans ce qui suit je vais vous présenter un travail de traitement semi-automatique en français
les étapes du projet
première étape
Nous avons sélectionné le mot "révolution" car il est d'actualité et aussi polysémique. Nous avons pris 50 urls contenant ce mot dans les deux langues.
Deuxième étape
Nous avons utilisé la commande wget afin de stocker les pages aspirées.
Troisième étape
Grâce à la commande Lynx nous avons voulu extraire le texte uniquement pour transformer les fichiers HTML en fichiers textes c-à-d sans balises HTML. Cette éxtraction a marché pour les pages en français.
Quatrième étape
La quatrième étape consiste à utiliser la commande egrep Celle-ci permet de chercher les lignes contenant le mot en question. Nous l'avons donc executée avec succès pour les pages en français.
Cinquième étape
Nous avons installé minigrepmultilingue pour convertir les fichiers de la quatrième étape en contexte au format html.
Sixième étape
Création du site internet.
Tous les documents concernant les pages en français se trouvent dans le dossier PROJET-MOT-SUR-LE-WEB.