Pour apprendre à se déplacer et à agir sur les fichiers à partir du terminal, nous avons écrit un petit script rangement.
La commande curl permet de récupérer une page. Avec l’option – o on lui indique sous quel nom l’enregistrer et avec – w on récupère le code retour pour savoir si l’aspiration de la page s’est bien déroulée.
File renvoie des renseignements sur le fichier avec l’option – i (-I sous Mac) qui, grâce à un pipe | (Shift et commande sous Mac) qui redonne le résultat, suivi d’un cut avec pour délimiteur le signe = (-d =) et pour colonne à ramener – f2, lui-même suivi d’un tr pour passer le résultat en majuscule. On obtient donc le type d’encodage. MAIS cela pose un problème pour les caractères en chinois traditionnel, très souvent codés en BIG-5 (lien). Le but du jeu étant que tous les fichiers soient transformés en texte codé en UTF-8, il faut vérifier que c’est bien le cas.
Sinon, à l’aide de iconv, il faudra recoder la page lue en indiquant vers (-t) quel encodage et à partir (-f) de quel encodage il doit opérer la traduction.
Egrep permet de rechercher une ligne contenant une expression régulière. Nous nous en sommes servi pour récupérer l’encodage dans la balise meta lorsque file ne trouvait pas la bonne solution, puis pour repérer toutes les occurrences du ou des mots cherchés.