Monsite | SCRIPT

PRÉPARATION DE L'ENVIRONNEMENT DU TRAVAIL:

Prime à bord nous avons commencé par la création d'un dossier que nous avons appelé PROJET-MOT-DANS-LE-WEB, dans le quel nous avons créer plusieurs sous-répertoires que avons nommés:

-PROGRAMME: ce sous-répertoire contient le script.

-PAGES-ASPIRÉES: il contient les pages aspirées des URL de chaque langue.

-TABLEAUX: contient le tableau obtenu grâce à notre script.

-DUMP-TEXT: contient des fichier txt de chaque URL, des trois langues.

-CONTEXTES: contient plusieurs fichiers, chaque fichier contient une ligne dans laquelle notre motif à savoir le mot avortement apparait dans les 3 langues (arabe, russe, français).

LE SCRIPT:

-Dans notre script, que vous pouvez éventuellement télécharger dans l'onglet script, nous avons décidé de créer des fonctions afin d'affiner le code, le rendre plus clair et plus lisible.

Nous avons donc créer 6 fonctions:

*une première, fonction aspiration, qui va nous permettre de récupérer les pages aspirées grâce à la commande "curl". Cette fonction est mise en marche si le code sortie de la page est égal à 200.

*la deuxième ,chercher encodage, est une fonction qui permet la détection de l'encodage de l'URL.

La consigne dit que nous devons travailler avec des urls encodés en UTF-8.

3 cas possibles et nous procédons de façon différentes pour chacun:

cas1:

L'encodage initial est de l' UTF-8 alors nous passons à la récupération des données avec la fonction nommée dump-assume-charset qui nous permet de récupérer le contenu de chaque url et de le stocker dans un fichier txt qui lui ai propre, et au traitement avec la fonction traitement. cette dernière nous permet de créer des digrammes, le contexte HTML ainsi que l'index.

-cas 2:

Si l'encodage de la page n'est pas en UTF-8, dans ce cas là nous devons premièrement s'assurer que l'encodage existe dans la liste puis nous mettons en oeuvre la fonction conversion. Pour convertir la page en UTF-8, nous avons eu recours à la commande iconv: cette commande prend 2 arguments; 1 er argument l'encodage d'entrée et le deuxième argument l'encodage de sortie.

Après la conversion, nous procédons au traitement des données avec les mêmes fonctions à savoir dump-assume-charset et traitement. Autrement

-Cas 3: encodage initial vide :

L'encodage trouvé est une chaine vide. Pour extraire l'encodage de la page nous avons utilisés la fonction chercher l'encodage qui utilise la commande file: si l'encodage était quand même de l'UTF-8 nous passons au traitement avec les fonctions précédemment citées, sinon, si l'encodage n'était pas de l'UTF-8 mais qu'il est reconnu par la liste des encodages supportés par iconv nous procédons à la conversion qui au traitement.

Si l'encodage n'est ni de l'UTF-8 ni connu par la liste iconv, à ce moment là, il fallait regarder le charset directement dans la page aspirée....

Voici notre script