Mariage pour Tal Monde

PHASE 1 – Script


Comme demandé au début du semestre, nous avions commencé à écrire nos scripts individuellement pour le commencement de la création du tableau (colonnes comportant le nunéro de l’URL, l’URL en question, son encodage, l’URL dumpée), puis au bout de la 4e séance, les enseignants nous ont proposé une version simplifiée de l’écriture de ce script: au lieu de créer un tableau par langue étudiée, il était à présent question de créer un tableau commun comportant autant de tableaux que de langues. Ces tableaux sont alors créés les uns en dessous des autres grâce à un fichier paramètre contenant l'adresse des fichiers et dossiers à traiter, et à une boucle while qui prend en paramètre le nombre de langues (si la langue diffère, on récupère les informations à partir du fichier d’URL lui correspondant et on crée un nouveau tableau pour traiter celles-ci) . Nous avons construit notre tableau final à l'aide du script de nos enseignants. Vous pouvez, également, le voir ci-dessous.

Tableau 1 BR | MOTIF : casamentos
N°URLPages AspiréesRetour CURLEncodageDump(encodage)Dump(utf8)Contexte (utf8)Contexte (HTML)Fq Motif
dans DUMP
Index Dump
1URL-BR10pas de charset...-- -  -  -  - 
2URL-BR20ISO-8859-1
(charset extrait)
dump-2dump-2contexte-2contexte-20index-2
3URL-BR30UTF-8
(charset extrait)
dump-3dump-3contexte-3contexte-31index-3
4URL-BR40UTF-8
(charset extrait)
dump-4dump-4contexte-4contexte-43index-4
5URL-BR50pas de charset...-- -  -  -  - 
6URL-BR - 0
Error : Moved Permanently
 -  -  -  -  -  -  - 
7URL-BR70UTF-8
(charset extrait)
dump-7dump-7contexte-7contexte-721index-7
8URL-BR80pas de charset...-- -  -  -  - 
9URL-BR90UTF-8
(charset extrait)
dump-9dump-9contexte-9contexte-90index-9
10URL-BR100UTF-8
(charset extrait)
dump-10dump-10contexte-10contexte-100index-10
11URL-BR110pas de charset...-- -  -  -  - 
12URL-BR120UTF-8
(charset extrait)
dump-12dump-12contexte-12contexte-120index-12
13URL-BR130UTF-8
(charset extrait)
dump-13dump-13contexte-13contexte-130index-13
14URL-BR140UTF-8
(charset extrait)
dump-14dump-14contexte-14contexte-140index-14
15URL-BR150UTF-8
(charset extrait)
dump-15dump-15contexte-15contexte-150index-15
16URL-BR160UTF-8
(charset extrait)
dump-16dump-16contexte-16contexte-161index-16
17URL-BR170UTF-8
(charset extrait)
dump-17dump-17contexte-17contexte-170index-17
18URL-BR180UTF-8
(charset extrait)
dump-18dump-18contexte-18contexte-181index-18
19URL-BR190UTF-8
(charset extrait)
dump-19dump-19contexte-19contexte-196index-19
20URL-BR200UTF-8
(charset extrait)
dump-20dump-20contexte-20contexte-2011index-20
21URL-BR210UTF-8
(charset extrait)
dump-21dump-21contexte-21contexte-2111index-21
22URL-BR220UTF-8
(charset extrait)
dump-22dump-22contexte-22contexte-220index-22
23URL-BR230pas de charset...-- -  -  -  - 
24URL-BR240UTF-8
(charset extrait)
dump-24dump-24contexte-24contexte-240index-24
25URL-BR250ISO-8859-1
(charset extrait)
dump-25dump-25contexte-25contexte-252index-25
26URL-BR - 0
Error : Moved Permanently
 -  -  -  -  -  -  - 
27URL-BR270UTF-8
(charset extrait)
dump-27dump-27contexte-27contexte-276index-27
28URL-BR280pas de charset...-- -  -  -  - 
29URL-BR290UTF-8
(charset extrait)
dump-29dump-29contexte-29contexte-295index-29
30URL-BR300ISO-8859-1
(charset extrait)
dump-30dump-30contexte-30contexte-3017index-30
31URL-BR310UTF-8
(charset extrait)
dump-31dump-31contexte-31contexte-310index-31
32URL-BR - 7 -  -  -  -  -  -  - 
33URL-BR330pas de charset...-- -  -  -  - 
34URL-BR340pas de charset...-- -  -  -  - 
35URL-BR350WINDOWS-1252
(charset extrait)
dump-35dump-35contexte-35contexte-350index-35
36URL-BR360UTF-8
(charset extrait)
dump-36dump-36contexte-36contexte-360index-36
37URL-BR370UTF-8
(charset extrait)
dump-37dump-37contexte-37contexte-3718index-37
38URL-BR380ISO-8859-1
(charset extrait)
dump-38dump-38contexte-38contexte-386index-38
39URL-BR390UTF-8
(charset extrait)
dump-39dump-39contexte-39contexte-390index-39
40URL-BR400UTF-8
(charset extrait)
dump-40dump-40contexte-40contexte-404index-40
41URL-BR410UTF-8
(charset extrait)
dump-41dump-41contexte-41contexte-410index-41
42URL-BR420UTF-8
(charset extrait)
dump-42dump-42contexte-42contexte-421index-42
43URL-BR430UTF-8
(charset extrait)
dump-43dump-43contexte-43contexte-431index-43
44URL-BR440ISO-8859-1
(charset extrait)
dump-44dump-44contexte-44contexte-4419index-44
45URL-BR450pas de charset...-- -  -  -  - 
46URL-BR460UTF-8
(charset extrait)
dump-46dump-46contexte-46contexte-461index-46
47URL-BR470UTF-8
(charset extrait)
dump-47dump-47contexte-47contexte-471index-47
48URL-BR480UTF-8
(charset extrait)
dump-48dump-48contexte-48contexte-482index-48
49URL-BR490UTF-8
(charset extrait)
dump-49dump-49contexte-49contexte-490index-49
50URL-BR500pas de charset...-- -  -  -  - 
 Fichier DUMP
global

37 fichier(s)
Fichier CONTEXTES
global

37 fichier(s)
 Index DUMP
global

37 fichier(s)
Index CONTEXTES
global

37 fichier(s)


Tableau 2 FR | MOTIF : mariages
N°URLPages AspiréesRetour CURLEncodageDump(encodage)Dump(utf8)Contexte (utf8)Contexte (HTML)Fq Motif
dans DUMP
Index Dump
1URL-FR10UTF-8
(charset extrait)
dump-1dump-1contexte-1contexte-129index-1
2URL-FR - 1 -  -  -  -  -  -  - 
3URL-FR30UTF-8
(charset extrait)
dump-3dump-3contexte-3contexte-38index-3
4URL-FR40UTF-8
(charset extrait)
dump-4dump-4contexte-4contexte-423index-4
5URL-FR50UTF-8
(charset extrait)
dump-5dump-5contexte-5contexte-55index-5
6URL-FR60UTF-8
(charset extrait)
dump-6dump-6contexte-6contexte-641index-6
7URL-FR70UTF-8
(charset extrait)
dump-7dump-7contexte-7contexte-77index-7
8URL-FR80UTF-8
(charset extrait)
dump-8dump-8contexte-8contexte-848index-8
9URL-FR90UTF-8
(charset extrait)
dump-9dump-9contexte-9contexte-914index-9
10URL-FR100UTF-8
(charset extrait)
dump-10dump-10contexte-10contexte-1061index-10
11URL-FR110ISO-8859-1
(charset extrait)
dump-11dump-11contexte-11contexte-118index-11
12URL-FR120UTF-8
(charset extrait)
dump-12dump-12contexte-12contexte-1257index-12
13URL-FR130UTF-8
(charset extrait)
dump-13dump-13contexte-13contexte-1311index-13
14URL-FR140UTF-8
(charset extrait)
dump-14dump-14contexte-14contexte-1476index-14
15URL-FR150UTF-8
(charset extrait)
dump-15dump-15contexte-15contexte-155index-15
16URL-FR160UTF-8
(charset extrait)
dump-16dump-16contexte-16contexte-1669index-16
17URL-FR170pas de charset...-- -  -  -  - 
18URL-FR180UTF-8
(charset extrait)
dump-18dump-18contexte-18contexte-1827index-18
19URL-FR190UTF-8
(charset extrait)
dump-19dump-19contexte-19contexte-19156index-19
20URL-FR200UTF-8
(charset extrait)
dump-20dump-20contexte-20contexte-2013index-20
21URL-FR210UTF-8
(charset extrait)
dump-21dump-21contexte-21contexte-2124index-21
22URL-FR220UTF-8
(charset extrait)
dump-22dump-22contexte-22contexte-2216index-22
23URL-FR230pas de charset...-- -  -  -  - 
24URL-FR240UTF-8
(charset extrait)
dump-24dump-24contexte-24contexte-2444index-24
25URL-FR250UTF-8
(charset extrait)
dump-25dump-25contexte-25contexte-2541index-25
26URL-FR260UTF-8
(charset extrait)
dump-26dump-26contexte-26contexte-2612index-26
27URL-FR270UTF-8
(charset extrait)
dump-27dump-27contexte-27contexte-2710index-27
28URL-FR280pas de charset...-- -  -  -  - 
29URL-FR290UTF-8
(charset extrait)
dump-29dump-29contexte-29contexte-293index-29
30URL-FR300UTF-8
(charset extrait)
dump-30dump-30contexte-30contexte-3033index-30
31URL-FR310UTF-8
(charset extrait)
dump-31dump-31contexte-31contexte-313index-31
32URL-FR320UTF-8
(charset extrait)
dump-32dump-32contexte-32contexte-3221index-32
33URL-FR330UTF-8
(charset extrait)
dump-33dump-33contexte-33contexte-3312index-33
34URL-FR340UTF-8
(charset extrait)
dump-34dump-34contexte-34contexte-3462index-34
35URL-FR350UTF-8
(charset extrait)
dump-35dump-35contexte-35contexte-357index-35
36URL-FR360UTF-8
(charset extrait)
dump-36dump-36contexte-36contexte-3611index-36
37URL-FR370UTF-8
(charset extrait)
dump-37dump-37contexte-37contexte-370index-37
38URL-FR380UTF-8
(charset extrait)
dump-38dump-38contexte-38contexte-3813index-38
39URL-FR390UTF-8
(charset extrait)
dump-39dump-39contexte-39contexte-3911index-39
40URL-FR400UTF-8
(charset extrait)
dump-40dump-40contexte-40contexte-4018index-40
41URL-FR410UTF-8
(charset extrait)
dump-41dump-41contexte-41contexte-4160index-41
42URL-FR420UTF-8
(charset extrait)
dump-42dump-42contexte-42contexte-4210index-42
43URL-FR430UTF-8
(charset extrait)
dump-43dump-43contexte-43contexte-4311index-43
44URL-FR440UTF-8
(charset extrait)
dump-44dump-44contexte-44contexte-4436index-44
45URL-FR450UTF-8
(charset extrait)
dump-45dump-45contexte-45contexte-450index-45
46URL-FR460UTF-8
(charset extrait)
dump-46dump-46contexte-46contexte-4615index-46
47URL-FR470UTF-8
(charset extrait)
dump-47dump-47contexte-47contexte-47195index-47
48URL-FR480UTF-8
(charset extrait)
dump-48dump-48contexte-48contexte-4810index-48
49URL-FR490UTF-8
(charset extrait)
dump-49dump-49contexte-49contexte-4948index-49
50URL-FR500UTF-8
(charset extrait)
dump-50dump-50contexte-50contexte-5026index-50
 Fichier DUMP
global

46 fichier(s)
Fichier CONTEXTES
global

46 fichier(s)
 Index DUMP
global

46 fichier(s)
Index CONTEXTES
global

46 fichier(s)

Tableau 2 CN | MOTIF : 结婚
N°URLPages AspiréesRetour CURLEncodageDump(encodage)Dump(utf8)Contexte (utf8)Contexte (HTML)Fq Motif
dans DUMP
Index Dump
1URL-CN10UTF-8
(charset extrait)
dump-1dump-1contexte-1contexte-110index-1
2URL-CN20UTF-8
(charset extrait)
dump-2dump-2contexte-2contexte-21index-2
3URL-CN30UTF-8
(charset extrait)
dump-3dump-3contexte-3contexte-31index-3
4URL-CN40UTF-8
(charset extrait)
dump-4dump-4contexte-4contexte-45index-4
5URL-CN50UTF-8
(charset extrait)
dump-5dump-5contexte-5contexte-510index-5
6URL-CN60UTF-8
(charset extrait)
dump-6dump-6contexte-6contexte-63index-6
7URL-CN70UTF-8
(charset extrait)
dump-7dump-7contexte-7contexte-76index-7
8URL-CN80UTF-8
(charset extrait)
dump-8dump-8contexte-8contexte-80index-8
9URL-CN90GB2312
(charset extrait)
dump-9dump-9contexte-9contexte-92index-9
10URL-CN100UTF-8
(charset extrait)
dump-10dump-10contexte-10contexte-102index-10
11URL-CN110UTF-8
(charset extrait)
dump-11dump-11contexte-11contexte-114index-11
12URL-CN120UTF-8
(charset extrait)
dump-12dump-12contexte-12contexte-122index-12
13URL-CN130UTF-8
(charset extrait)
dump-13dump-13contexte-13contexte-133index-13
14URL-CN140UTF-8
(charset extrait)
dump-14dump-14contexte-14contexte-140index-14
15URL-CN150UTF-8
(charset extrait)
dump-15dump-15contexte-15contexte-151index-15
16URL-CN160UTF-8
(charset extrait)
dump-16dump-16contexte-16contexte-169index-16
17URL-CN170UTF-8
(charset extrait)
dump-17dump-17contexte-17contexte-170index-17
18URL-CN180UTF-8
(charset extrait)
dump-18dump-18contexte-18contexte-1813index-18
19URL-CN190UTF-8
(charset extrait)
dump-19dump-19contexte-19contexte-190index-19
20URL-CN200UTF-8
(charset extrait)
dump-20dump-20contexte-20contexte-204index-20
21URL-CN210UTF-8
(charset extrait)
dump-21dump-21contexte-21contexte-211index-21
22URL-CN220UTF-8
(charset extrait)
dump-22dump-22contexte-22contexte-220index-22
23URL-CN230UTF-8
(charset extrait)
dump-23dump-23contexte-23contexte-231index-23
24URL-CN240UTF-8
(charset extrait)
dump-24dump-24contexte-24contexte-242index-24
25URL-CN250UTF-8
(charset extrait)
dump-25dump-25contexte-25contexte-252index-25
26URL-CN260UTF-8
(charset extrait)
dump-26dump-26contexte-26contexte-268index-26
27URL-CN270UTF-8
(charset extrait)
dump-27dump-27contexte-27contexte-2728index-27
28URL-CN280UTF-8
(charset extrait)
dump-28dump-28contexte-28contexte-287index-28
29URL-CN290UTF-8
(charset extrait)
dump-29dump-29contexte-29contexte-290index-29
30URL-CN300UTF-8
(charset extrait)
dump-30dump-30contexte-30contexte-302index-30
31URL-CN310UTF-8
(charset extrait)
dump-31dump-31contexte-31contexte-312index-31
32URL-CN320UTF-8
(charset extrait)
dump-32dump-32contexte-32contexte-320index-32
33URL-CN330UTF-8
(charset extrait)
dump-33dump-33contexte-33contexte-333index-33
34URL-CN340UTF-8
(charset extrait)
dump-34dump-34contexte-34contexte-343index-34
35URL-CN350UTF-8
(charset extrait)
dump-35dump-35contexte-35contexte-3514index-35
36URL-CN360UTF-8
(charset extrait)
dump-36dump-36contexte-36contexte-3614index-36
37URL-CN370UTF-8
(charset extrait)
dump-37dump-37contexte-37contexte-372index-37
38URL-CN380GB2312
(charset extrait)
dump-38dump-38contexte-38contexte-3835index-38
39URL-CN390UTF-8
(charset extrait)
dump-39dump-39contexte-39contexte-391index-39
40URL-CN400UTF-8
(charset extrait)
dump-40dump-40contexte-40contexte-400index-40
41URL-CN410UTF-8
(charset extrait)
dump-41dump-41contexte-41contexte-410index-41
42URL-CN420UTF-8
(charset extrait)
dump-42dump-42contexte-42contexte-423index-42
43URL-CN430UTF-8
(charset extrait)
dump-43dump-43contexte-43contexte-4315index-43
44URL-CN440UTF-8
(charset extrait)
dump-44dump-44contexte-44contexte-440index-44
45URL-CN450UTF-8
(charset extrait)
dump-45dump-45contexte-45contexte-452index-45
46URL-CN460UTF-8
(charset extrait)
dump-46dump-46contexte-46contexte-460index-46
47URL-CN470UTF-8
(charset extrait)
dump-47dump-47contexte-47contexte-471index-47
48URL-CN480UTF-8
(charset extrait)
dump-48dump-48contexte-48contexte-489index-48
49URL-CN490UTF-8
(charset extrait)
dump-49dump-49contexte-49contexte-492index-49
50URL-CN500UTF-8
(charset extrait)
dump-50dump-50contexte-50contexte-500index-50
 Fichier DUMP
global

50 fichier(s)
Fichier CONTEXTES
global

50 fichier(s)
 Index DUMP
global

50 fichier(s)
Index CONTEXTES
global

50 fichier(s)

Copyright © Mariage