Explication du script

Il est temps de clôturer le projet car c’est 2019 maintenant. Nous allons d’abord attaquer le script qui nous a pris un temps fou et une énergie incessamment perdue et reprise. 

Pourtant, au lieu de parcourir ligne par ligne le script (ce que nous avons déjà fait dans les journaux de travail, par segments), nous allons souligner les différences avec le script du cours, et quelques points faibles qui restent à améliorer.

1, fonction processingutf8

Nous constatons vite l’avantage de fonction, elle permet d’éviter de répéter à chaque fois les mêmes traitements, et donc, des erreurs éventuelles. Un autre avantage, c’est de rendre la logique du code plus clair, et le script plus lisible. Bien sûr, il est tout à fait faisable de créer un script à part qui ne contient que processingutf8, et écrire dans le script original « bash processingutf8.sh chemindufichier », ce qui pourra réduire significativement la longueur du script. (Nous ne l’avons pas fait, pour un script aussi court)

Capture d’écran 2019-01-15 à 17.12.34.png

2, multi-contrôle de l’encodage

Ce rapport, je l’ai rédigé à la sortie de l’examen de GIM. L’encodage nous a tracassé, le mauvais rendu nous a humilié. Surtout, il est surprenant de constater que l’unicode (utf-8) est loin de dominer totalement le web. 

Pour détecter l’encodage, au début, nous appliquons la commande egrep pour la page aspirée.

Capture d’écran 2019-01-17 à 00.26.23.png

a)Si l’encodage est utf-8: lynx et processingutf8. 

b)Si l’encodage est autre chose que utf-8, on soumet l’encodage à « iconv -l » pour voir s’il fait partie des encodages que l’on pourra transcoder.

Si oui, on le transcode par commande « iconv -f  $ENCODAGE -t utf-8 »; si non, on abandonne, on ne fait pas de traitement.

Capture d’écran 2019-01-17 à 01.08.12.png

c)Si l’encodage est vide, nous allons reprendre la détection de l’encodage, toujours par egrep et expression régulière. Et on recommence l’étape a) et b).

 Pour voir plusen détail la différence de ces deux méthode, cf journal IV.

Capture d’écran 2019-01-17 à 01.10.21.png

3, Les couleurs

Le dernier mais non le moindre: en même temps que le script s’exécute, nous voulons voir le fonctionnement du script dans le terminal, et pour plaire aux yeux, nous avons choisi de colorer les « echo » dans le terminal. 

Capture d’écran 2019-01-17 à 01.20.08.png

Le résultat:

Pour les urls français:

Capture d’écran 2019-01-17 à 23.54.34.png

Pour les urls anglais:

Capture d’écran 2019-01-17 à 23.54.50.png

Pour les urls chinois:

Capture d’écran 2019-01-17 à 23.55.08.png

Pour ce qui concerne l’analyse de corpus, nous allons l’aborder dans la partie Corpus Analyse.

Merci de vouloir nous suivre…