SCRIPT POUR FRANÇAIS, ANGLAIS & ITALIEN
VIE | LIFE | VITA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142 | #!/bin/bash
#
# *******PRÉSENTATION DU SCRIPT********
# Ce programme est un bash script que nous avons utilisé pour créer les tableaux des langues française, italienne et anglaise
# Pour la langue chinoise, nous avons pris un autre programme un peu différente à cause du problème de la part de l'encodage
#
#
# Étape 1: la lecture du dossier et du motif
read DOSSIERURLS;
read fichier_tableau;
read motif;
echo "Le dossier d'URLs : $DOSSIERURLS " ;
echo "Le fichier contenant le tableau : $fichier_tableau" ;
echo "Le motif est : $motif" ;
#
# Étape 2: la création des tableaux
cpttableau=1;
echo "<html><head></head><body>" > $fichier_tableau ;
#
#====== Boucles d'extraction d'information pour chaque URL ========
for fichier in `ls $DOSSIERURLS`
{
compteur=1;
# L'écriture en HTML les éléments en tête
echo "<p align=\"center\"><hr color=\"blue\" width=\"80%\"/> </p>" >> $fichier_tableau ;
echo "<table align=\"center\" border=\"1\">" >> $fichier_tableau ;
echo "<tr><td colspan=\"11\" align=\"center\">tableau n° $cpttableau</td></tr>" >> $fichier_tableau ;
echo "<tr><td align=\"center\"><b>N°</b></td><td align=\"center\"><b>Lien</b></td><td align=\"center\"><b>CODE CURL</b><td align=\"center\"><b>statut CURL</b></td><td align=\"center\"><b>Page Aspirée</b></td><td align=\"center\"><b>Encodage Initial</b></td><td align=\"center\"><b>DUMP initial</b></td><td align=\"center\"><b>DUMP UTF-8</b></td><td align=\"center\"><b>CONTEXTE UTF-8</b></td><td align=\"center\"><b>CONTEXTE HTML UTF-8</b></td><td align=\"center\"><b>Fq MOTIF</b></td></tr>" >> $fichier_tableau ;
# L'extraction commence!
for line in `cat $DOSSIERURLS/$fichier`
{
# ==> ASPIRATION DE LA PAGE
echo "TELECHARGEMENT de $line vers ./PAGES-ASPIREES/$cpttableau-$compteur.html" ;
# RECUPERATION DU HEADER HTTP
status1=$(curl -sI $line | head -n 1);
# RECUPERATION DU CODE RETOUR HTTP ET DE LA PAGE
status2=$(curl --silent --output ./PAGES-ASPIREES/"$cpttableau-$compteur".html --write-out "%{http_code}" $line);
echo "STATUT CURL : $status2" ;
#-----------------------------------------------------------------------
echo "this was a . . . "
CURLRESULT=$status2
if [ $CURLRESULT != '200' ];
then
echo "fail, Statut Curl not ok";
# this is a function that discredits those URLs that are not 200 == OK
else
if [ $CURLRESULT == '200' ];
then
echo success, Statut Curl OK
echo "DETECTION encodage de $line ";
encodage=$(curl -sI $line | egrep -i "charset=" | cut -f2 -d= | tr -d "\n" | tr -d "\r" | tr "[:upper:]" "[:lower:]");
echo "ENCODAGE $line : <$encodage>" ;
if [[ $encodage == "utf-8" ]]
then
echo "DUMP de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ;
# ajouter ici l'extraction de contexte autour des mots choisis
egrep -i "$motif" ./DUMP-TEXT/$cpttableau-$compteur.txt > ./CONTEXTES/$cpttableau-$compteur.txt ;
nbmotif=$(egrep -coi "$motif" ./DUMP-TEXT/$cpttableau-$compteur.txt);
perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur.txt parametre-motif.txt ;
mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td align=\"center\"><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">P.A n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage</td><td align=\"center\">-</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
else
# Si l'encodage trouvé:
if [[ $encodage != "" ]]
then
VERIFENCODAGEDANSICONV=$(iconv -l | egrep -o "[-A-Z0-9\_\:]+" |egrep -i $encodage) ;
# Si l'encodage pas trouvé
if [[ $VERIFENCODAGEDANSICONV == "" ]]
then
#------------- On ne fait rien... -------------------------------------------------
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via curl<br/>inconnu de iconv</td><td align=\"center\">-</td><td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
else
echo "DUMP (via $encodage) de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ;
iconv -f $encodage -t utf-8 ./DUMP-TEXT/$cpttableau-$compteur.txt > ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt ;
egrep -i $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt > ./CONTEXTES/$cpttableau-$compteur.txt ;
nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt);
perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt parametre-motif.txt ;
mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via curl</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur-utf8.txt\">DUMP n° $cpttableau-$compteur</a></td><td><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
fi
# Vérifier s'il y a l'élément de charset dans les balises qui indique l'encodage du code source
else
isthereacharset=$(egrep -i -o "meta(.*)?charset" ./PAGES-ASPIREES/"$cpttableau-$compteur".html);
# Si Charset existe:
if [[ $isthereacharset != "" ]]
then
encodage=$(egrep -i -o "meta(.*)charset[^=]*?=[^\"]*?\"?[^\"]+?\"" ./PAGES-ASPIREES/$cpttableau-$compteur.html | egrep -i -o "charset[^=]*?= *?\"?[^\"]+?\"" | cut -f2 -d= | sed "s/\"//g" | sed "s/>//g" | sed "s/ //g" | sed "s/\///g" | sort -u | tr [A-Z] [a-z] );
echo "ENCODAGE EXTRAIT DE LA PAGE ASPIREE : $encodage" ;
# Si l'encodage est en UTF-8:
if [[ $encodage == "utf-8" ]]
then
echo "DUMP de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ;
egrep -i $motif ./DUMP-TEXT/$cpttableau-$compteur.txt > ./CONTEXTES/$cpttableau-$compteur.txt ;
nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$compteur.txt);
perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur.txt parametre-motif.txt ;
mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td align=\"center\"><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">P.A n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via charset</td><td align=\"center\">-</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
# Si l'encodage n'est pas en UTF-8:
else
VERIFENCODAGEDANSICONV=$(iconv -l | egrep -o "[-A-Z0-9\_\:]+" |egrep -i $encodage) ;
# Si Charset n'existe pas:
if [[ $VERIFENCODAGEDANSICONV == "" ]]
then
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/><br/>via charset<br/>inconnu de iconv</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
else
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ;
iconv -f $encodage -t utf-8 ./DUMP-TEXT/$cpttableau-$compteur.txt > ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt
egrep -i $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt > ./CONTEXTES/$cpttableau-$compteur.txt ;
nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt);
perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt parametre-motif.txt ;
mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
#-------------------------------------------------------------------------------------------------------------------------
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via charset</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur-utf8.txt\">DUMP n° $cpttableau-$compteur</a></td><td><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
fi
fi
else
echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">Aucun encodage extrait...</td><td align=\"center\">-</td><td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
fi
fi
fi
compteur=$((compteur+1)) ;
fi
fi
}
echo "</table>" >> $fichier_tableau ;
cpttableau=$((cpttableau+1)) ;
}
echo "</body></html>" >> $fichier_tableau ;
|
SCRIPT POUR CHINOIS
生命 | 生活 | 人生
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
| #!/bin/bash
# *******PRÉSENTATION DU PROGRAMME********
# Ce programme est un bash script que nous avons utilisé spécifiquement pour la création du tableau des URLs de la langue chinoise
#
# Étape 1: Lecture du dossier et des motifs
echo "Le dossier d'URLs : " ;
read DOSSIERURLS;
echo "Le fichier contenant le tableau : " ;
read fichier_tableau;
echo "Le motif est : " ;
read motif1;
read motif2;
read motif3;
#
# Étape 2: La création du tableau
echo "<html><head></head><body>" > $fichier_tableau ;
#====== Boucles pour extraire l'information de chaque URL ========
for fichier in `ls $DOSSIERURLS`
{
compteur=1;
# L'écriture des éléments en tête du fichier HTML:
echo "<p align=\"center\"><hr color=\"blue\" width=\"80%\"/> </p>" >> $fichier_tableau ;
echo "<table align=\"center\" border=\"1\">" >> $fichier_tableau ;
echo "<tr><td colspan=\"11\" align=\"center\">tableau $fichier</td></tr>" >> $fichier_tableau ;
echo "<tr><td align=\"center\"><b>N°</b></td>
<td align=\"center\"><b>Lien</b></td>
<td align=\"center\"><b>CODE CURL</b>
<td align=\"center\"><b>statut CURL</b></td>
<td align=\"center\"><b>Page Aspirée</b></td>
<td align=\"center\"><b>Encodage Initial</b></td>
<td align=\"center\"><b>DUMP initial</b></td>
<td align=\"center\"><b>DUMP UTF-8</b></td>
<td align=\"center\"><b>CONTEXTE UTF-8</b></td>
<td align=\"center\"><b>CONTEXTE HTML UTF-8</b></td>
<td align=\"center\"><b>Fq MOTIF</b></td></tr>" >> $fichier_tableau ;
# L'extraction commence:
for line in `cat $DOSSIERURLS/$fichier`
{
# ==> ASPIRATION DE LA PAGE
echo "TELECHARGEMENT de $line vers ./PAGES-ASPIREES/$compteur.html" ;
# 1. RECUPERATION DU HEADER HTTP
status1=$(curl -sI $line | head -n 1);
# 2. RECUPERATION DU CODE RETOUR HTTP ET DE LA PAGE
status2=$(curl --silent --output ./PAGES-ASPIREES/"$compteur".html --write-out "%{http_code}" $line);
echo "STATUT CURL : $status2" ;
# Si l'aspiration marche bien
if [[ $status2 == '200' ]]; then
echo "le telechargement marche bien";
else
echo "le telechargement ne marche pas";
fi
# ==> DETECTION DE L'ENCODAGE DE LA PAGE en ligne
echo "DETECTION encodage de $line ";
encodage=$(curl -sI $line | egrep -i 'charset=' | cut -f2 -d= | tr -d "\n" | tr -d "\r" | tr "[:upper:]" "[:lower:]");
echo "ENCODAGE $line : $encodage" ;
# Si l'encodage trouvé:
if [[ $encodage != "" ]];
then
# Si l'encodage trouvé est en UTF-8:
if [[ $encodage == "utf-8" ]]; then
echo "DUMP de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur-utf8.txt ;
# L'extraction de contexte autour des motifs
egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ;
nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
mv resultat-extraction.html ./CONTEXTES/$compteur-utf8.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td>
<td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
<td align=\"center\">$status2</td>
<td align=\"center\"><small>$status1</small></td>
<td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">P.A n° $compteur</a></td>
<td align=\"center\">$encodage</td><td align=\"center\">-</td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
<td align=\"center\"><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
<td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
<td>$nbmotif</td></tr>" >> $fichier_tableau ;
else
# Si l'encodage trouvé n'est pas en UTF-8:
if [[ $encodage != "utf-8" ]]; then
echo "DUMP (via $encodage) de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur.txt ;
iconv -f $encodage -t utf-8 ./DUMP-TEXT/$compteur.txt > ./DUMP-TEXT/$compteur-utf8.txt ;
# L'extraction du contexte:
egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ;
nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
mv resultat-extraction.html ./CONTEXTES/$compteur.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td>
<td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
<td align=\"center\">$status2</td>
<td><small>$status1</small></td>
<td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
<td align=\"center\">$encodage<br/>via curl</td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur.txt\">DUMP n° $compteur</a></td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
<td><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
<td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
<td>$nbmotif</td></tr>" >> $fichier_tableau ;
fi
fi
fi
# Si l'encodage n'est pas trouvé:
if [[ $encodage == "" ]]; then
encodage=$(egrep -m 1 -i -o 'meta(.*)charset[^=]*?=[^\"]*?\"?[^\"]+?\"' ./PAGES-ASPIREES/$compteur.html | egrep -i -o "charset[^=]*?= *?\"?[^\"]+?\"" | cut -f2 -d= | sed "s/\"//g" | sed "s/>//g" | sed "s/ //g" | sed "s/\///g" | sort -u | tr [A-Z] [a-z] );
echo ENCODAGE DE PAGE ASPIREES EST : $encodage;
# Si l'encodage est en UTF-8:
if [[ $encodage == "utf-8" ]]; then
echo "DUMP (via $encodage) de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur-utf8.txt ;
egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ;
# L'extraction du contexte:
nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
mv resultat-extraction.html ./CONTEXTES/$compteur.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td>
<td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
<td align=\"center\">$status2</td>
<td><small>$status1</small></td>
<td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
<td align=\"center\">$encodage<br/>via curl</td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur.txt\">DUMP n° $compteur</a></td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
<td><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
<td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
<td>$nbmotif</td></tr>" >> $fichier_tableau ;
else
isthereacharset=$(egrep -i -o 'meta(.*)?charset' ./PAGES-ASPIREES/"$compteur".html);
# S'il existe charset dans la page aspirée
if [[ $isthereacharset != "" ]];
then
encodage=$(egrep -m 1 -i -o 'meta(.*)charset[^=]*?=[^\"]*?\"?[^\"]+?\"' ./PAGES-ASPIREES/$compteur.html | egrep -i -o "charset[^=]*?= *?\"?[^\"]+?\"" | cut -f2 -d= | sed "s/\"//g" | sed "s/>//g" | sed "s/ //g" | sed "s/\///g" | sort -u | tr [A-Z] [a-z] );
if [[ $encodage != "utf-8" ]]; then
verifcode=$(iconv -l | egrep -o "[-A-Z0-9\_\:]+" | egrep -wi $encodage);
if [[ $verifcode == "" ]];then
# on peut rien faire!!!!!
echo "<tr><td align=\"center\">$compteur</td>
<td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
<td align=\"center\">$status2</td>
<td><small>$status1</small></td>
<td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
<td align=\"center\">Aucun encodage extrait...</td><td align=\"center\">-</td>
<td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
else
if [[ $verifcode != "" ]];then
echo "VERIF : <$verifcode> ==> connu par inconv, c'est parti ==> lynx, iconv..."
echo "ENCODAGE final : $encodage (avant conversion vers utf-8)";
echo "DUMP (via $encodage) de $line via lynx" ;
lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur.txt ;
iconv -f $encodage -t utf-8 ./DUMP-TEXT/$compteur.txt > ./DUMP-TEXT/$compteur-utf8.txt ;
egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ;
nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
mv resultat-extraction.html ./CONTEXTES/$compteur.html ;
echo "ECRITURE RESULTAT dans le tableau" ;
echo "<tr><td align=\"center\">$compteur</td>
<td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
<td align=\"center\">$status2</td>
<td><small>$status1</small></td>
<td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
<td align=\"center\">$encodage<br/>via curl</td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur.txt\">DUMP n° $compteur</a></td>
<td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
<td><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
<td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
<td>$nbmotif</td></tr>" >> $fichier_tableau ;
fi
fi
fi
fi
fi
fi
compteur=$((compteur+1));
}
echo "</table>" >> $fichier_tableau;
}
echo "</body></html>" >> $fichier_tableau;
|