DESCRIPTION DU PROJET

Etape 1: choix des urls.

Il fallait, dans un premier temps, choisir un mot et les langues dans lesquelles on voulait le travailler. J'ai choisi de traiter le mot "économie" en français et en anglais.

Ensuite on devait choisir 50 urls de site internet contenant le mot choisi pour chaque langue et les mettre dans un fichier texte. Mes urls proviennent, en grande partie de blog et de site de journaux.

Etape 2: Création de l'arborescence de travail.

Cette étape consiste à créer l'ensemble des répertoires pour le projet encadré. Les répertoires crées sont: URLS, PROGRAMMES, TABLEAUX, PAGES-ASPIREES, IMAGES, CONTEXTES, DUMP-TEXT, FICHIERSGLOBAUX.

Etape 3: Création d'un tableau de lien initial.

On crée un tableau de lien contenant initialement deux colonnes; la numérotation des liens et les urls. Ce tableau sera enrichi au fur et à mesure par les colonnes des pages aspirées, du dump, des contextes et le nombre d'occurrence du mot choisi.

Etape 4: Pages aspirées.

Cette étape consiste à "aspirer" c'est à dire sauvegarder le contenu des sites choisi sur son ordinateur à l'aide de la commande wget ou la commande curl . Les fichiers contenant les pages aspirées sont des fichiers .html.

Etape 5: Dump.

On dump les pages c'est à dire qu'on ne sauvegarde que le texte brut des pages web choisi (sans les liens, images, ...) dans un fichier texte avec la commande lynx.

Etape 6: Contexte.

Après avoir effectuer le dump et l'aide de la commande egrep, on extrait dans un premier temps dans un fichier texte puis dans un fichier .html les contextes d'occurences du mot choisi dans les deux langues.

Etape 7: Nuages de mots.


A partir des contextes et a l'aide des sites tagxedo ou wordle on réalise des nuages de mot du mot choisi dans les deux langues.



Design provided by Free Website Templates.