Perl

Ayant quelques notions en perl, nous avons voulu tenter de développer le même script dans cet autre langage en parallèle.

Outre la curiosité et une certaine attirance pour ce langage de programmation, nous pensions qu'il aurait été plus facile de mettre en place les expressions régulières pour l'extraction de contextes, en particulier pour le chinois, par exemple en utilisant la déclaration d'en-tête « use unicode ; ». Or nous n'avons pas été confrontées à des problèmes majeurs vis à vis du chinois. L'absence de nécessité, donc, et le manque de temps nous aura empêchées de mener ce projet à bout ; mais en voilà néanmoins la toute première étape. Nous nous sommes arrêtés après l'aspiration des pages :


Cliquez ici pour télécharger le Script Perl
Cliquez ici pour télécharger le Fichier d'Input

Lorsque nous avons commencé ce programme, nous avons voulu ajouter une distinction qui n'apparait pas dans l'autre script en bash, nous avons voulu faire une distinction entre les différents sous-corpus qui composent notre liste d'URLS. Pour cela, nous avons dû ajouter des balises entre chevrons dans nos fichiers d'URLS : par exemple. Une clause if nous permet donc de distinguer entre ces balises et les URLS :

if ($url=~/<([^>]+)>/)

Dans notre programme, nous utilisons ces balises pour rajouter des sous-titres à notre tableau de résultat. À terme, nous voulions reporter la distinction entre les sous-corpus à nos fichiers de dump total et de contexte global pour affiner notre analyse des résultats.

Le reste de l'algorithme est similaire à notre script en bash : les URLS sont numérotées (par langue et par sous-corpus), présentées sous forme de lien dans la troisième colonne, puis aspirées dans la quatrième. Nous avons ajouté un test après l'aspiration des pages, pour que les cases des URLS dont l'aspiration s'est mal passée apparaissent en rouge.

erreur 404

Ce procédé détecte en fait les pages dont l'aspiration a donné un résultat vide. Il ne détecte pas les erreurs de type erreur 404, par exemple.

Nous n'avons malheureusement pas eu le temps d'aller plus loin.

Voilà le tableau des résultats obtenus :

Liste URL allemand
conditions d'utilisation
nº URLnº URL dans le sous-corpusURL Pages aspirées
1
1
URL nº1
page aspirée
2
2
URL nº2
page aspirée
3
3
URL nº3 erreur lors de l'aspiration
4
4
URL nº4 erreur lors de l'aspiration
5
5
URL nº5
page aspirée
6
6
URL nº6
page aspirée
7
7
URL nº7
page aspirée
8
8
URL nº8
page aspirée
9
9
URL nº9
page aspirée
10
10
URL nº10
page aspirée
11
11
URL nº11 erreur lors de l'aspiration
12
12
URL nº12 erreur lors de l'aspiration
13
13
URL nº13
page aspirée
14
14
URL nº14
page aspirée
15
15
URL nº15
page aspirée
16
16
URL nº16
page aspirée
17
17
URL nº17
page aspirée
18
18
URL nº18
page aspirée
19
19
URL nº19
page aspirée
20
20
URL nº20
page aspirée
21
21
URL nº21
page aspirée
lois
nº URLnº URL dans le sous-corpusURL Pages aspirées
22
1
URL nº22
page aspirée
23
2
URL nº23
page aspirée
24
3
URL nº24
page aspirée
25
4
URL nº25
page aspirée
26
5
URL nº26
page aspirée
27
6
URL nº27
page aspirée
28
7
URL nº28
page aspirée
29
8
URL nº29
page aspirée
30
9
URL nº30
page aspirée
31
10
URL nº31
page aspirée
32
11
URL nº32
page aspirée
33
12
URL nº33
page aspirée
tutoriels
nº URLnº URL dans le sous-corpusURL Pages aspirées
34
1
URL nº34
page aspirée
35
2
URL nº35
page aspirée
36
3
URL nº36
page aspirée
37
4
URL nº37
page aspirée
38
5
URL nº38
page aspirée
39
6
URL nº39
page aspirée
40
7
URL nº40
page aspirée
41
8
URL nº41
page aspirée
42
9
URL nº42
page aspirée
43
10
URL nº43
page aspirée
44
11
URL nº44 erreur lors de l'aspiration
45
12
URL nº45 erreur lors de l'aspiration
46
13
URL nº46
page aspirée
47
14
URL nº47
page aspirée
48
15
URL nº48
page aspirée
49
16
URL nº49
page aspirée
50
17
URL nº50
page aspirée
51
18
URL nº51
page aspirée
52
19
URL nº52
page aspirée
53
20
URL nº53
page aspirée
54
21
URL nº54
page aspirée
55
22
URL nº55
page aspirée
presse
nº URLnº URL dans le sous-corpusURL Pages aspirées
56
1
URL nº56
page aspirée
57
2
URL nº57
page aspirée
58
3
URL nº58
page aspirée
59
4
URL nº59
page aspirée
60
5
URL nº60
page aspirée
61
6
URL nº61
page aspirée
62
7
URL nº62
page aspirée
63
8
URL nº63
page aspirée
64
9
URL nº64
page aspirée
65
10
URL nº65
page aspirée
66
11
URL nº66
page aspirée
67
12
URL nº67
page aspirée
68
13
URL nº68
page aspirée
69
14
URL nº69
page aspirée
70
15
URL nº70
page aspirée
71
16
URL nº71 erreur lors de l'aspiration
72
17
URL nº72
page aspirée
73
18
URL nº73
page aspirée
74
19
URL nº74
page aspirée
75
20
URL nº75
page aspirée
76
21
URL nº76
page aspirée
77
22
URL nº77
page aspirée
78
23
URL nº78
page aspirée
79
24
URL nº79
page aspirée


Liste URL anglais
conditions d'utilisation
nº URLnº URL dans le sous-corpusURL Pages aspirées
1
1
URL nº1
page aspirée
2
2
URL nº2
page aspirée
3
3
URL nº3
page aspirée
4
4
URL nº4 erreur lors de l'aspiration
5
5
URL nº5 erreur lors de l'aspiration
6
6
URL nº6
page aspirée
7
7
URL nº7
page aspirée
8
8
URL nº8
page aspirée
9
9
URL nº9
page aspirée
10
10
URL nº10
page aspirée
11
11
URL nº11
page aspirée
12
12
URL nº12
page aspirée
13
13
URL nº13
page aspirée
14
14
URL nº14
page aspirée
15
15
URL nº15
page aspirée
16
16
URL nº16
page aspirée
17
17
URL nº17
page aspirée
18
18
URL nº18
page aspirée
19
19
URL nº19
page aspirée
20
20
URL nº20
page aspirée
21
21
URL nº21
page aspirée
22
22
URL nº22
page aspirée
23
23
URL nº23
page aspirée
24
24
URL nº24
page aspirée
lois
nº URLnº URL dans le sous-corpusURL Pages aspirées
25
1
URL nº25
page aspirée
26
2
URL nº26
page aspirée
27
3
URL nº27
page aspirée
28
4
URL nº28 erreur lors de l'aspiration
29
5
URL nº29 erreur lors de l'aspiration
30
6
URL nº30 erreur lors de l'aspiration
31
7
URL nº31
page aspirée
32
8
URL nº32
page aspirée
33
9
URL nº33
page aspirée
34
10
URL nº34
page aspirée
35
11
URL nº35
page aspirée
36
12
URL nº36
page aspirée
tutoriel
nº URLnº URL dans le sous-corpusURL Pages aspirées
37
1
URL nº37
page aspirée
38
2
URL nº38 erreur lors de l'aspiration
39
3
URL nº39
page aspirée
40
4
URL nº40
page aspirée
41
5
URL nº41
page aspirée
42
6
URL nº42
page aspirée
43
7
URL nº43
page aspirée
44
8
URL nº44
page aspirée
45
9
URL nº45
page aspirée
46
10
URL nº46
page aspirée
47
11
URL nº47
page aspirée
48
12
URL nº48
page aspirée
49
13
URL nº49
page aspirée
50
14
URL nº50
page aspirée
51
15
URL nº51
page aspirée
52
16
URL nº52
page aspirée
presse
nº URLnº URL dans le sous-corpusURL Pages aspirées
53
1
URL nº53
page aspirée
54
2
URL nº54 erreur lors de l'aspiration
55
3
URL nº55
page aspirée
56
4
URL nº56
page aspirée
57
5
URL nº57
page aspirée
58
6
URL nº58
page aspirée
59
7
URL nº59 erreur lors de l'aspiration
60
8
URL nº60 erreur lors de l'aspiration
61
9
URL nº61 erreur lors de l'aspiration
62
10
URL nº62
page aspirée
63
11
URL nº63
page aspirée
64
12
URL nº64
page aspirée
65
13
URL nº65
page aspirée
66
14
URL nº66
page aspirée
67
15
URL nº67
page aspirée
68
16
URL nº68
page aspirée


Liste URL chinois
presse
nº URLnº URL dans le sous-corpusURL Pages aspirées
1
1
URL nº1
page aspirée
2
2
URL nº2
page aspirée
3
3
URL nº3
page aspirée
4
4
URL nº4
page aspirée
5
5
URL nº5
page aspirée
6
6
URL nº6
page aspirée
7
7
URL nº7
page aspirée
8
8
URL nº8
page aspirée
9
9
URL nº9
page aspirée
10
10
URL nº10
page aspirée
11
11
URL nº11
page aspirée
12
12
URL nº12
page aspirée
13
13
URL nº13
page aspirée
14
14
URL nº14
page aspirée
15
15
URL nº15
page aspirée
conditions d'utilisation
nº URLnº URL dans le sous-corpusURL Pages aspirées
16
1
URL nº16
page aspirée
17
2
URL nº17
page aspirée
18
3
URL nº18 erreur lors de l'aspiration
19
4
URL nº19
page aspirée
20
5
URL nº20
page aspirée
21
6
URL nº21
page aspirée
22
7
URL nº22
page aspirée
23
8
URL nº23
page aspirée
24
9
URL nº24 erreur lors de l'aspiration
25
10
URL nº25
page aspirée
26
11
URL nº26
page aspirée
27
12
URL nº27
page aspirée
28
13
URL nº28
page aspirée
29
14
URL nº29
page aspirée
30
15
URL nº30
page aspirée
loi
nº URLnº URL dans le sous-corpusURL Pages aspirées
31
1
URL nº31
page aspirée
32
2
URL nº32
page aspirée
33
3
URL nº33
page aspirée
34
4
URL nº34
page aspirée
35
5
URL nº35
page aspirée
36
6
URL nº36
page aspirée
37
7
URL nº37
page aspirée
38
8
URL nº38
page aspirée
39
9
URL nº39
page aspirée
40
10
URL nº40
page aspirée
41
11
URL nº41
page aspirée
42
12
URL nº42
page aspirée
43
13
URL nº43
page aspirée
44
14
URL nº44
page aspirée
45
15
URL nº45
page aspirée
46
16
URL nº46
page aspirée
tutoriel
nº URLnº URL dans le sous-corpusURL Pages aspirées
47
1
URL nº47 erreur lors de l'aspiration
48
2
URL nº48
page aspirée
49
3
URL nº49
page aspirée
50
4
URL nº50
page aspirée
51
5
URL nº51
page aspirée
52
6
URL nº52
page aspirée
53
7
URL nº53
page aspirée
54
8
URL nº54
page aspirée
55
9
URL nº55
page aspirée
56
10
URL nº56
page aspirée
57
11
URL nº57
page aspirée
58
12
URL nº58
page aspirée
59
13
URL nº59
page aspirée
60
14
URL nº60
page aspirée
61
15
URL nº61
page aspirée


Liste URL francais
conditions d'utilisation
nº URLnº URL dans le sous-corpusURL Pages aspirées
1
1
URL nº1
page aspirée
2
2
URL nº2
page aspirée
3
3
URL nº3 erreur lors de l'aspiration
4
4
URL nº4 erreur lors de l'aspiration
5
5
URL nº5
page aspirée
6
6
URL nº6 erreur lors de l'aspiration
7
7
URL nº7
page aspirée
8
8
URL nº8
page aspirée
9
9
URL nº9
page aspirée
10
10
URL nº10
page aspirée
11
11
URL nº11
page aspirée
12
12
URL nº12
page aspirée
13
13
URL nº13
page aspirée
14
14
URL nº14
page aspirée
15
15
URL nº15
page aspirée
16
16
URL nº16
page aspirée
17
17
URL nº17 erreur lors de l'aspiration
18
18
URL nº18
page aspirée
19
19
URL nº19
page aspirée
20
20
URL nº20 erreur lors de l'aspiration
21
21
URL nº21
page aspirée
22
22
URL nº22
page aspirée
lois
nº URLnº URL dans le sous-corpusURL Pages aspirées
23
1
URL nº23
page aspirée
24
2
URL nº24
page aspirée
25
3
URL nº25
page aspirée
26
4
URL nº26 erreur lors de l'aspiration
27
5
URL nº27
page aspirée
28
6
URL nº28
page aspirée
29
7
URL nº29
page aspirée
30
8
URL nº30
page aspirée
31
9
URL nº31
page aspirée
32
10
URL nº32 erreur lors de l'aspiration
33
11
URL nº33
page aspirée
34
12
URL nº34
page aspirée
35
13
URL nº35
page aspirée
36
14
URL nº36
page aspirée
37
15
URL nº37
page aspirée
38
16
URL nº38
page aspirée
39
17
URL nº39
page aspirée
40
18
URL nº40
page aspirée
41
19
URL nº41
page aspirée
42
20
URL nº42
page aspirée
43
21
URL nº43
page aspirée
44
22
URL nº44
page aspirée
tutoriel
nº URLnº URL dans le sous-corpusURL Pages aspirées
45
1
URL nº45
page aspirée
46
2
URL nº46
page aspirée
47
3
URL nº47
page aspirée
48
4
URL nº48
page aspirée
49
5
URL nº49
page aspirée
50
6
URL nº50
page aspirée
51
7
URL nº51
page aspirée
52
8
URL nº52 erreur lors de l'aspiration
53
9
URL nº53 erreur lors de l'aspiration
54
10
URL nº54
page aspirée
55
11
URL nº55
page aspirée
56
12
URL nº56
page aspirée
57
13
URL nº57
page aspirée
58
14
URL nº58
page aspirée
59
15
URL nº59
page aspirée
presse
nº URLnº URL dans le sous-corpusURL Pages aspirées
60
1
URL nº60
page aspirée
61
2
URL nº61
page aspirée
62
3
URL nº62
page aspirée
63
4
URL nº63
page aspirée
64
5
URL nº64
page aspirée
65
6
URL nº65
page aspirée
66
7
URL nº66
page aspirée
67
8
URL nº67
page aspirée
68
9
URL nº68
page aspirée
69
10
URL nº69
page aspirée
70
11
URL nº70
page aspirée
71
12
URL nº71
page aspirée
72
13
URL nº72
page aspirée
73
14
URL nº73
page aspirée
74
15
URL nº74
page aspirée
75
16
URL nº75
page aspirée
76
17
URL nº76
page aspirée
77
18
URL nº77
page aspirée
78
19
URL nº78
page aspirée
79
20
URL nº79
page aspirée
80
21
URL nº80
page aspirée
81
22
URL nº81
page aspirée
82
23
URL nº82
page aspirée
83
24
URL nº83
page aspirée
84
25
URL nº84
page aspirée
85
26
URL nº85
page aspirée