Le menu



Accueil

Le Mot

Les Scripts

Les Outils

Les Tableaux

Des Nuages

Un Bilan

Les Scripts

Les scripts permettent de traiter automatiquement toutes les urls, nous avons au total environ 200 puisqu'il fallait trouver une cinquantaine d'urls par langue.

En résumé le script doit :

puceLit la liste des langues à traiter (pour éviter de la retaper à chaque essai) et le nom du tableau

puceDébut du HTML : on écrit l'en-tête de la page

puceOuvre la première liste d’URL d’une langue

puceCommence le tableau en mettant en fond l’image correspondante

puceCurl : Lit une URL, va la chercher et indique s’il y a eu un problème

puceFile : Cherche l’encodage. Problème du Big-5 que file ne sait pas bien interpréter puisqu’il n’y a pas de lettres accentuées et que, pour file, c’est du ISO-8859-1 (il faut donc prévoir un traitement particulier)

puceSi c’est de l’UTF-8 : Lynx, Dump, extraction du motif, compte occurrences

puceSi c’est du BIG-5 : Lynx, dump, Iconv en utf-8, extraction du motif, compte occurrences

puceSinon

puceEgrep permet de chercher l’encodage

puceS’il est reconnu par le système : Lynx, dump, Iconv en utf-8, extraction du motif, compte occurrences

puceAjoute les divers textes récupérés dans les Dump et Contexte Globaux

pucePasse à l’URL suivante jusqu’à la fin de la langue

puceFerme le tableau

pucePasse à la langue suivante et recommence jusqu'à la fin de la liste de langue.

puceFerme le HTML

Bash

Voici le lien vers le script bash en bash. Pour l'utiliser, il faut taper sur le terminal sh CinqLangues.sh < input.txt pour appeler le fichier contenant la liste des langues et lui indiquer le nom du tableau. De plus, ce script est pour l'OS du Macintosh, pour unix, il faut changer le I majuscule de la commande file en i minuscule.

Perl

Nous avons aussi essayé de faire un script en perl : Cinq.pl.

Le langage perl m'a semblé plus facile à concevoir grâce à l'utilisation des sous-programmes : on ne répète donc qu'une fois la partie qui cherche le motif en fonction de la langue.

Cependant le script définitif achoppe encore un peu. Il traite certaines lignes mais pas d'autres, compte les mots en anglais et pas en français alors que la syntaxe est strictement la même.

Pour améliorer encore les scripts et traiter le problème de Wikipédia qui, bien qu'annoncé en UTF-8, ne s'enregistre pas correctement, il faudrait créer une boucle de plus et vérifier que le fichier n'est pas vide et le traiter en conséquence s'il l'est.