« Les noix ont fort bon goût, mais il faut les ouvrir. Souvenez-vous que, dans la vie, sans un peu de travail on n'a point de plaisir.»

Jean-Pierre Florian


Création de l'environnement de travail

Après avoir rapatrié les 50 URLS, j'ai commencé par créer mon arborescence, l'ensemble des dossiers qui rameute les programmes à lancer (PROGRAMMES), les résultats à obtenir (PAGES-ASPIREES, TABLEUX, DUMP-TEXT).. passant à la suite à l'élaboration de mes scripts, écrits en langage shell. L'interprète, Cygwin, tentant de créer un environnement Unix sous Windows, est capable de lire le code source de ce langage sous forme de script et d'exécuter les instructions après une analyse syntaxique du contenu. Jusqu'ici, j'ai bien créé mon environnement de travail et je peux commencer le lancement de mes script.


                   



Mon arborescence est prête.. et après!

Le travail à effectuer n'est finalement qu'une mise au point des scripts par l'entremise d'une interface en ligne de commande! Ce shéma résume les différentes étapes du projet:

Passons alors à l'exécution, mais avant, jetons un coup d'oeil sur les scripts:


Script français


Afficher le script


Télécharger le script





Script arabe

Cette fois, comme tout programme en langage interprété, mon script a rencontré des problèmes, dits problèmes d'encodage. La contrainte conserne le recouvrement du contenu textuel des pages arabes aspirées; Un problème d'encodage se manifeste par le fait qu'une partie ou la totalité des caractères des documents ne sont pas affichés correctement. A cette étape, j'ai me suis posée les questions: "Quelle est l'étendue du problème? S'agit-il d'un contenu inconvertible en page texte? Ou s'agit-il peut-ètre d'un problème de script?". Pour répondre à ces interrogations, j'ai dû consulter les sites Web qui proposent des dénouements et les solutions mises en oeuvre les années précédentes. Je me suis rendu compte que si la page initiale est déjà encodée en UTF-8, un format de codage de caractères, tout fonctionne correctement. En revanche, si la page initiale n'est pas en UTF-8, il faut appliquer l'opération de transcodage. Du point de vue de la machine, de nombreux travaux portent sur ce processus d'encodage. Les caractères que portent mes pages aspirées, comme toute donnée informatique, ne sont qu'une sucession de 0 et de 1. C'est le langage natif d'un processeur, c'est-à-dire le seul qu'il puisse traiter. Il est composé d'instructions et de données à traiter codées en binaire. C'est la représentation et l'ordonnance de ces bits qui définissent la norme d'un encodage. Après avoir réalisé l'opération de transcodage, via la commande iconv, j'ai pu lancer normalement mon script, c'est parti!

                             

Afficher le script


Télécharger le script