Tableaux

Le script sur lequel nous avons travaillé nous a permis de créer un tableau qui réuni tous les URLs avec lesquels on a travaillé pour notre corpus.

Pour chaque langue, on a créé un tableau différent. Chaque tableau contient la numérotation des URLs, le code curl, le statut curl, le lien vers la page aspirée qu'on a téléchargé avec la commande curl, l'encodage initial de cette page, et l'encodage final au cas où il n'était pas UTF-8. Ensuite, on trouve le fichier DUMP en UTF-8 de chaque URL, et aussi nous avons créé des fichier qui réunissent le contexte autour de notre mot. À continuation, nous avons fait un fichier index de chaque fichier DUMP. À la fin du tableau, il y en a deux colonnes, une pour indiquer quel est le motif dans chaque cas et aussi un compteur du fréquence du motif dans le URL correspondant.

Trouvez ci-dessous le lien vers le trois tableaux de notre projet.

Lien vers les tableaux