Etapes de travail

Cette page présente un récapitulatif de la méthode de travail que nous avons suivie pour mener à bien ce projet d'un bout à l'autre du semestre.


Etapes initiales

Avant même de choisir notre thématique, nous avons formé notre groupe. Ce n'est qu'ensuite que nous avons réfléchi au thème de notre projet et aux langues dans lesquelles nous allions étudier les apparitions de ce mot.


Phase 1 / Recherche des URLs

La première véritable étape du projet a consisté à récupérer manuellement une cinquantaine d'URLs pour chaque langue étudiée, afin de construire un corpus multilingue. C'est ce que nous avons fait en anglais, français, tchèque et espagnol. Rappelons également le contexte de la collecte des URLs : partant du postulat que le rapport de l'homme avec l'argent diffère à travers le monde, nous avons jugé utile de l'étudier à travers une vie multilingue sur le web. Le capitalisme comme étant à l'origine de la nouvelle configuration sociale a pareillement guidé notre choix. De ce fait, nous avons convenu d'effectuer une recherche sur la base de ces mots clés : l'homme et l'argent (en général), puis l'homme et le capitalisme, l'argent et la vie sociale, l'argent et la santé, l'argent et la religion pour approfondir certaines thématiques récurrentes.


Phase 2 / Création d'un tableau HTML

Ensuite, nous avons passé plusieurs séances de travail à construire le tableau HTML, pas à pas. D'abord une seule colonne pour les URLs, puis nous avons ajouté 2 colonnes supplémentaires pour numéroter les liens et pour afficher les pages aspirées correspondant à ces liens. La quatrième colonne du tableau est la colonne DUMP qui récupère le contenu textuel des URLs, avec comme contrainte que l'encodage soit en UTF-8. La fois suivante, nous avons ajouté 2 colonnes : une pour l'encodage de chaque URL et une autre pour le retour CURL, à ce moment-là du projet nous en étions à 6 colonnes dans notre tableau. Au final, notre tableau est donc composé de 10 colonnes : les colonnes mentionnées précédemment auxquelles nous avons ajouté les colonnes pour les contextes en UTF-8, les contextes en HTML, la fréquence du motif recherché dans les DUMP et l'index DUMP, sans oublier deux lignes en plus tout en bas du tableau car nous avons fait la concaténation des fichiers DUMP et des fichiers CONTEXTES.


Phase 3 / Trameur et nuages de mots

Les étapes de la recherche d'URLs et de construction du tableau HTML sont les principales du projet mais pour conclure, nous avons également construit des nuages de mots pour chaque langue, utilisé Le Trameur afin de déterminer les cooccurrents les plus fréquents et analysé nos résultats. Vous pouvez retrouver ces étapes sur notre site.


Phase 4 / Création du site web

Pour notre site web, nous avons choisi un template que nous avons personnalisé en modifiant l'affichage (changement de l'image, suppression de certains menus, ajout d'onglets correspondant à nos pages effectives, etc.). Nous nous sommes inspirés des précédents travaux qui ont été réalisés dans le cadre du projet tout en apportant notre touche personnelle pour le contenu.