Explication du script
Il est temps de clôturer le projet car c’est 2019 maintenant. Nous allons d’abord attaquer le script qui nous a pris un temps fou et une énergie incessamment perdue et reprise.
Pourtant, au lieu de parcourir ligne par ligne le script (ce que nous avons déjà fait dans les journaux de travail, par segments), nous allons souligner les différences avec le script du cours, et quelques points faibles qui restent à améliorer.
1, fonction processingutf8
Nous constatons vite l’avantage de fonction, elle permet d’éviter de répéter à chaque fois les mêmes traitements, et donc, des erreurs éventuelles. Un autre avantage, c’est de rendre la logique du code plus clair, et le script plus lisible. Bien sûr, il est tout à fait faisable de créer un script à part qui ne contient que processingutf8, et écrire dans le script original « bash processingutf8.sh chemindufichier », ce qui pourra réduire significativement la longueur du script. (Nous ne l’avons pas fait, pour un script aussi court)
2, multi-contrôle de l’encodage
Ce rapport, je l’ai rédigé à la sortie de l’examen de GIM. L’encodage nous a tracassé, le mauvais rendu nous a humilié. Surtout, il est surprenant de constater que l’unicode (utf-8) est loin de dominer totalement le web.
Pour détecter l’encodage, au début, nous appliquons la commande egrep pour la page aspirée.
a)Si l’encodage est utf-8: lynx et processingutf8.
b)Si l’encodage est autre chose que utf-8, on soumet l’encodage à « iconv -l » pour voir s’il fait partie des encodages que l’on pourra transcoder.
Si oui, on le transcode par commande « iconv -f $ENCODAGE -t utf-8 »; si non, on abandonne, on ne fait pas de traitement.
c)Si l’encodage est vide, nous allons reprendre la détection de l’encodage, toujours par egrep et expression régulière. Et on recommence l’étape a) et b).
Pour voir plusen détail la différence de ces deux méthode, cf journal IV.
3, Les couleurs
Le dernier mais non le moindre: en même temps que le script s’exécute, nous voulons voir le fonctionnement du script dans le terminal, et pour plaire aux yeux, nous avons choisi de colorer les « echo » dans le terminal.
Le résultat:
Pour les urls français:
Pour les urls anglais:
Pour les urls chinois:
Pour ce qui concerne l’analyse de corpus, nous allons l’aborder dans la partie Corpus Analyse.
Merci de vouloir nous suivre…