De la langue au palais ...

Une étude multidimensionnelle des comportements alimentaires sur les cinq continents

Accueil Projet Méthode Script Bash Résultats Contextes Retraités Nuages de mots Trameur A Propos Blog

Concernant la sélection des Urls par D.G.

La méthode de sélection des URLs a été bien précise, et commune à chacun des membres de ce projet. Le maitre mot de cette sélection a été le "hasard". Le but de ce projet était de prouver qu'en ayant récupéré des URLs au hasard sur le web, nous obtiendrions des résultats significatifs, le plus en phase possible avec la réalité. En l'occurrence, avec les habitudes alimentaires des pays et régions du monde visés par l'étude. Chacun de nous étant allé dans les pays étudiés dans le projet, nous comptions utiliser notre humble expertise personnelle pour valider la véracité de nos résultats.

Pour ce faire, nous avons donc lancé la requête suivante dans notre navigateur: recette (traduit selon les langues visées) + cuisine (traduit selon les langues visées) + nom du continent concerné/nom du pays concerné , et avons ensuite sélectionné les 50 premiers urls apparaissant dans le résultat. Par exemple, avec l'indonésien, la recherche fut "resep makanan indonesia" ; puis récupération des 50 premières URLs apparaissant.

C'est seulement au moment de la création des nuages de mots et des motifs que nous avons lancé des requêtes plus précises.

Petit commentaire général sur le script par J.F.

Nous allons essayer ici de commenter le script rapidement, celui-ci est bien sur présent dans l'onglet script. Ce commentaire ne se veut pas forcément clair mais peut aider à comprendre le script bash établi pour nos opérations. L'environnement de travail avait été préparé grâce à ceci télécharger le script de préparation . On envoi au script 4 informations contenus à 4 endroits différents. Pour ce faire on utilise un fichier chemin qui contient l'adresse absolu de nos autres fichiers.

fichier chemin à voir ici
fichier motif à voir ici
fichier motif minigrep à voir ici

et un dernier chemin relatif à la zone ou l'on va créer les tableaux de nos données en sortie.
Ensuite le script peut fonctionner en stockant les informations dans 4 variables.

La partie suivante sert à faire le ménage de tests résiduels précédents grâce à rm
On déclare l'entête du fichier html grâce à echo

boucle 1

On établit un compteur j pour « compter » les langues et on utilise un if pour pouvoir nommer différemment nos tableaux selon les langues.
Les autres compteurs sont créés dans la foulée (i pour les urls, c pour la réussite des aspirations wget, et deux autres compteurs : un pour les occurrences, et un pour les dumps. La première partie du tableau est écrite ensuite.

boucle 2

On traite ensuite fichier par fichier. Si l'aspiration est réussie (grâce à wget et -t pour limiter le nombre d'opération à 3) on teste l'encodage sinon on stocke le résultat ce qui va créer deux cas et encore deux autres en fonction du résultat de l'encodage.

les dumps et les traitements

On passe ensuite aux diverses langues et aux dumps , l'idée est de dumper (en les concaténant au passage) et d'appliquer des expressions régulières pour filtrer avec sed afin d'obtenir les dictionnaires des dumps. On applique ensuite un grep pour filtrer les contextes avec une autre expression régulière et minigrep (le programme perl fourni) pour créer des contextes. On pourra ainsi comparer les deux types de contextes dans le tableau final.

Le seul problème réside dans la langue japonaise qui ne se découpe pas grâce un espace entre mot, nous utilisons alors l'analyseur syntaxique mecab couplé avec une expression régulière pour parvenir à nos fins.

Reste à créer les lignes et colonnes des tableau et à stocker tous nos résultats