La Vie dans Quatre Langues


SCRIPT POUR FRANÇAIS, ANGLAIS & ITALIEN

VIE | LIFE | VITA


   
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
#!/bin/bash
#
#                                                *******PRÉSENTATION DU SCRIPT********
# Ce programme est un bash script que nous avons utilisé pour créer les tableaux des langues française, italienne et anglaise
# Pour la langue chinoise, nous avons pris un autre programme un peu différente à cause du problème de la part de l'encodage
# 
#
# Étape 1: la lecture du dossier et du motif
read DOSSIERURLS;
read fichier_tableau;
read motif;
echo "Le dossier d'URLs : $DOSSIERURLS " ;
echo "Le fichier contenant le tableau : $fichier_tableau" ;
echo "Le motif est : $motif" ;
#
# Étape 2: la création des tableaux
cpttableau=1;
echo "<html><head></head><body>" > $fichier_tableau ;
#
#====== Boucles d'extraction d'information pour chaque URL ========
for fichier in `ls $DOSSIERURLS` 
{ 
    compteur=1; 
    
    # L'écriture en HTML les éléments en tête
    echo "<p align=\"center\"><hr color=\"blue\" width=\"80%\"/> </p>" >> $fichier_tableau ;
    echo "<table align=\"center\" border=\"1\">" >> $fichier_tableau ;
    echo "<tr><td colspan=\"11\" align=\"center\">tableau n° $cpttableau</td></tr>" >> $fichier_tableau ;
    echo "<tr><td align=\"center\"><b>N&deg;</b></td><td align=\"center\"><b>Lien</b></td><td align=\"center\"><b>CODE CURL</b><td align=\"center\"><b>statut CURL</b></td><td align=\"center\"><b>Page Aspir&eacute;e</b></td><td align=\"center\"><b>Encodage Initial</b></td><td align=\"center\"><b>DUMP initial</b></td><td align=\"center\"><b>DUMP UTF-8</b></td><td align=\"center\"><b>CONTEXTE UTF-8</b></td><td align=\"center\"><b>CONTEXTE HTML UTF-8</b></td><td align=\"center\"><b>Fq MOTIF</b></td></tr>" >> $fichier_tableau ;
    
    # L'extraction commence!
    for line in `cat $DOSSIERURLS/$fichier` 
    {
    # ==> ASPIRATION DE LA PAGE 
   echo "TELECHARGEMENT de $line vers ./PAGES-ASPIREES/$cpttableau-$compteur.html" ;
   # RECUPERATION DU HEADER HTTP
   status1=$(curl -sI $line | head -n 1); 
   # RECUPERATION DU CODE RETOUR HTTP ET DE LA PAGE
   status2=$(curl --silent --output ./PAGES-ASPIREES/"$cpttableau-$compteur".html --write-out "%{http_code}" $line);
   echo "STATUT CURL : $status2" ;
   #-----------------------------------------------------------------------
   echo "this was a . . . "
   CURLRESULT=$status2
   if [ $CURLRESULT != '200' ];
        then
            echo "fail, Statut Curl not ok";
            #  this is a function that discredits those URLs that are not 200 == OK 
        else    
            if [ $CURLRESULT == '200' ];
            then
                echo success, Statut Curl OK 
       echo "DETECTION encodage de $line ";
       encodage=$(curl -sI $line | egrep -i "charset=" | cut -f2 -d= | tr -d "\n" | tr -d "\r" | tr "[:upper:]" "[:lower:]");
       echo "ENCODAGE $line : <$encodage>" ;
       if [[ $encodage == "utf-8" ]]
       then 
           echo "DUMP de $line via lynx" ;
           lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ; 
               # ajouter ici l'extraction de contexte autour des mots choisis
           egrep -i "$motif" ./DUMP-TEXT/$cpttableau-$compteur.txt > ./CONTEXTES/$cpttableau-$compteur.txt ; 
           nbmotif=$(egrep -coi "$motif" ./DUMP-TEXT/$cpttableau-$compteur.txt);
           perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur.txt parametre-motif.txt ;
           mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
           echo "ECRITURE RESULTAT dans le tableau" ;
           echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td align=\"center\"><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">P.A n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage</td><td align=\"center\">-</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
       else
           
           # Si l'encodage trouvé:
           if [[ $encodage != "" ]]
           then
           VERIFENCODAGEDANSICONV=$(iconv -l |  egrep -o "[-A-Z0-9\_\:]+" |egrep -i $encodage) ;
           
           # Si l'encodage pas trouvé
           if [[ $VERIFENCODAGEDANSICONV == "" ]]
           then
               #------------- On ne fait rien...   -------------------------------------------------
               echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via curl<br/>inconnu de iconv</td><td align=\"center\">-</td><td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
           else
               echo "DUMP (via $encodage) de $line via lynx" ;
               lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ;
               iconv -f $encodage -t utf-8 ./DUMP-TEXT/$cpttableau-$compteur.txt > ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt ;
               egrep -i $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt > ./CONTEXTES/$cpttableau-$compteur.txt ; 
               nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt);
               perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt parametre-motif.txt ;
               mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
               echo "ECRITURE RESULTAT dans le tableau" ;
               echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via curl</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur-utf8.txt\">DUMP n° $cpttableau-$compteur</a></td><td><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
           fi 
           
           # Vérifier s'il y a l'élément de charset dans les balises qui indique l'encodage du code source   
           else 
           isthereacharset=$(egrep -i -o "meta(.*)?charset" ./PAGES-ASPIREES/"$cpttableau-$compteur".html);
           
               # Si Charset existe:
               if [[ $isthereacharset != "" ]]
               then
               encodage=$(egrep -i -o "meta(.*)charset[^=]*?=[^\"]*?\"?[^\"]+?\"" ./PAGES-ASPIREES/$cpttableau-$compteur.html | egrep -i -o "charset[^=]*?= *?\"?[^\"]+?\"" | cut -f2 -d= | sed "s/\"//g" | sed "s/>//g" | sed "s/ //g" | sed "s/\///g" | sort -u | tr [A-Z] [a-z] );
               echo "ENCODAGE EXTRAIT DE LA PAGE ASPIREE : $encodage" ;
                   # Si l'encodage est en UTF-8:
                   if [[ $encodage == "utf-8" ]]
                   then 
                   echo "DUMP de $line via lynx" ;
                   lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ; 
                   egrep -i $motif ./DUMP-TEXT/$cpttableau-$compteur.txt > ./CONTEXTES/$cpttableau-$compteur.txt ; 
                   nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$compteur.txt);
                   perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur.txt parametre-motif.txt ;
                   mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
                   echo "ECRITURE RESULTAT dans le tableau" ;
                   echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td align=\"center\"><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">P.A n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via charset</td><td align=\"center\">-</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
                   # Si l'encodage n'est pas en UTF-8:
                   else
                   VERIFENCODAGEDANSICONV=$(iconv -l |  egrep -o "[-A-Z0-9\_\:]+" |egrep -i $encodage) ;
               
               # Si Charset n'existe pas:
               if [[ $VERIFENCODAGEDANSICONV == "" ]]
               then
                   echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/><br/>via charset<br/>inconnu de iconv</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
               else
                   lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$cpttableau-$compteur.txt ;
                   iconv -f $encodage -t utf-8 ./DUMP-TEXT/$cpttableau-$compteur.txt > ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt
                   egrep -i $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt > ./CONTEXTES/$cpttableau-$compteur.txt ; 
                   nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt);
                   perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$cpttableau-$compteur-utf8.txt parametre-motif.txt ;
                   mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html ;
                   #-------------------------------------------------------------------------------------------------------------------------
                   echo "ECRITURE RESULTAT dans le tableau" ;
                   echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">$encodage<br/>via charset</td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur.txt\">DUMP n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../DUMP-TEXT/$cpttableau-$compteur-utf8.txt\">DUMP n° $cpttableau-$compteur</a></td><td><a href=\"../CONTEXTES/$cpttableau-$compteur.txt\">CONTEXTE n° $cpttableau-$compteur</a></td><td align=\"center\"><a href=\"../CONTEXTES/$cpttableau-$compteur.html\">CONTEXTE n° $cpttableau-$compteur</a></td><td>$nbmotif</td></tr>" >> $fichier_tableau ;
               fi
               fi
           else
               echo "<tr><td align=\"center\">$compteur</td><td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td><td align=\"center\">$status2</td><td><small>$status1</small></td><td align=\"center\"><a href=\"../PAGES-ASPIREES/$cpttableau-$compteur.html\">PA n° $cpttableau-$compteur</a></td><td align=\"center\">Aucun encodage extrait...</td><td align=\"center\">-</td><td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
           fi
               fi
       fi
       compteur=$((compteur+1)) ;  
       fi
   fi
    }
    echo "</table>" >> $fichier_tableau ;
    cpttableau=$((cpttableau+1)) ;
}
echo "</body></html>" >> $fichier_tableau ;

SCRIPT POUR CHINOIS

生命 | 生活 | 人生


  
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
#!/bin/bash
#                                                *******PRÉSENTATION DU PROGRAMME********
# Ce programme est un bash script que nous avons utilisé spécifiquement pour la création du tableau des URLs de la langue chinoise
#
# Étape 1: Lecture du dossier et des motifs
echo "Le dossier d'URLs : " ;
read DOSSIERURLS;
echo "Le fichier contenant le tableau : " ;
read fichier_tableau;
echo "Le motif est : " ;
read motif1;
read motif2;
read motif3;
#
# Étape 2: La création du tableau
echo "<html><head></head><body>" > $fichier_tableau ;

#====== Boucles pour extraire l'information de chaque URL ========
for fichier in `ls $DOSSIERURLS`
{ 
    compteur=1; 
    
    # L'écriture des éléments en tête du fichier HTML:
    echo "<p align=\"center\"><hr color=\"blue\" width=\"80%\"/> </p>" >> $fichier_tableau ;
    echo "<table align=\"center\" border=\"1\">" >> $fichier_tableau ;
    echo "<tr><td colspan=\"11\" align=\"center\">tableau $fichier</td></tr>" >> $fichier_tableau ;
    echo "<tr><td align=\"center\"><b>N&deg;</b></td>
         <td align=\"center\"><b>Lien</b></td>
         <td align=\"center\"><b>CODE CURL</b>
         <td align=\"center\"><b>statut CURL</b></td>
         <td align=\"center\"><b>Page Aspir&eacute;e</b></td>
         <td align=\"center\"><b>Encodage Initial</b></td>
         <td align=\"center\"><b>DUMP initial</b></td>
         <td align=\"center\"><b>DUMP UTF-8</b></td>
         <td align=\"center\"><b>CONTEXTE UTF-8</b></td>
         <td align=\"center\"><b>CONTEXTE HTML UTF-8</b></td>
         <td align=\"center\"><b>Fq MOTIF</b></td></tr>" >> $fichier_tableau ;
   
   # L'extraction commence:
    for line in `cat $DOSSIERURLS/$fichier`
    {
       # ==> ASPIRATION DE LA PAGE 
       echo "TELECHARGEMENT de $line vers ./PAGES-ASPIREES/$compteur.html" ;
       # 1. RECUPERATION DU HEADER HTTP
       status1=$(curl -sI $line | head -n 1); 
       # 2. RECUPERATION DU CODE RETOUR HTTP ET DE LA PAGE
       status2=$(curl --silent --output ./PAGES-ASPIREES/"$compteur".html --write-out "%{http_code}" $line);
       echo "STATUT CURL : $status2" ;
       
       # Si l'aspiration marche bien
       if [[ $status2 == '200' ]];  then 
           echo "le telechargement marche bien";
       else 
           echo "le telechargement ne marche pas";
       fi
               
       # ==> DETECTION DE L'ENCODAGE DE LA PAGE en ligne
       echo "DETECTION encodage de $line ";
       encodage=$(curl -sI $line | egrep -i 'charset=' | cut -f2 -d= | tr -d "\n" | tr -d "\r" | tr "[:upper:]" "[:lower:]");
       echo "ENCODAGE $line : $encodage" ;
       
       # Si l'encodage trouvé:
       if [[ $encodage != "" ]];
       then    
               # Si l'encodage trouvé est en UTF-8:
               if [[ $encodage == "utf-8" ]];   then
                   echo "DUMP de $line via lynx" ;
                   lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur-utf8.txt ; 
                   # L'extraction de contexte autour des motifs
                   egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ; 
                   nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
                   perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl  "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
                   mv resultat-extraction.html ./CONTEXTES/$compteur-utf8.html ;
                   echo "ECRITURE RESULTAT dans le tableau" ;
                   echo "<tr><td align=\"center\">$compteur</td>
                        <td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
                        <td align=\"center\">$status2</td>
                        <td align=\"center\"><small>$status1</small></td>
                        <td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">P.A n° $compteur</a></td>
                        <td align=\"center\">$encodage</td><td align=\"center\">-</td>
                        <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
                        <td align=\"center\"><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
                        <td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
                        <td>$nbmotif</td></tr>" >> $fichier_tableau ;

               else
                   # Si l'encodage trouvé n'est pas en UTF-8:
                   if [[ $encodage != "utf-8" ]]; then
                        echo "DUMP (via $encodage) de $line via lynx" ;
                        lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur.txt ; 
                        iconv -f $encodage -t utf-8 ./DUMP-TEXT/$compteur.txt > ./DUMP-TEXT/$compteur-utf8.txt ;
                        # L'extraction du contexte:
                        egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ; 
                        nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
                        perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl  "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
                        mv resultat-extraction.html ./CONTEXTES/$compteur.html ;
                        echo "ECRITURE RESULTAT dans le tableau" ;
                        echo "<tr><td align=\"center\">$compteur</td>
                              <td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
                              <td align=\"center\">$status2</td>
                              <td><small>$status1</small></td>
                              <td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
                              <td align=\"center\">$encodage<br/>via curl</td>
                              <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur.txt\">DUMP n° $compteur</a></td>
                              <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
                              <td><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
                              <td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
                              <td>$nbmotif</td></tr>" >> $fichier_tableau ;

                     fi
               fi
           fi
           
                   
           # Si l'encodage n'est pas trouvé: 
           if [[ $encodage == "" ]]; then
                encodage=$(egrep -m 1 -i -o 'meta(.*)charset[^=]*?=[^\"]*?\"?[^\"]+?\"' ./PAGES-ASPIREES/$compteur.html | egrep -i -o "charset[^=]*?= *?\"?[^\"]+?\"" | cut -f2 -d= | sed "s/\"//g" | sed "s/>//g" | sed "s/ //g" | sed "s/\///g" | sort -u | tr [A-Z] [a-z] );
                echo ENCODAGE DE PAGE ASPIREES EST : $encodage;
            
                # Si l'encodage est en UTF-8:
                if [[ $encodage == "utf-8" ]]; then
                   echo "DUMP (via $encodage) de $line via lynx" ;
                   lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur-utf8.txt ;
                   egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ; 
                   # L'extraction du contexte:
                   nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
                   perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl  "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
                   mv resultat-extraction.html ./CONTEXTES/$compteur.html ;
                   echo "ECRITURE RESULTAT dans le tableau" ;
                   echo "<tr><td align=\"center\">$compteur</td>
                       <td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
                       <td align=\"center\">$status2</td>
                       <td><small>$status1</small></td>
                       <td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
                       <td align=\"center\">$encodage<br/>via curl</td>
                       <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur.txt\">DUMP n° $compteur</a></td>
                       <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
                       <td><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
                       <td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
                       <td>$nbmotif</td></tr>" >> $fichier_tableau ;

                else               
                   isthereacharset=$(egrep -i -o 'meta(.*)?charset' ./PAGES-ASPIREES/"$compteur".html);
                   
                   # S'il existe charset dans la page aspirée
                   if [[ $isthereacharset != "" ]];
                   then
                       encodage=$(egrep -m 1 -i -o 'meta(.*)charset[^=]*?=[^\"]*?\"?[^\"]+?\"' ./PAGES-ASPIREES/$compteur.html | egrep -i -o "charset[^=]*?= *?\"?[^\"]+?\"" | cut -f2 -d= | sed "s/\"//g" | sed "s/>//g" | sed "s/ //g" | sed "s/\///g" | sort -u | tr [A-Z] [a-z] );
                   if [[ $encodage != "utf-8" ]]; then
                       verifcode=$(iconv -l | egrep -o "[-A-Z0-9\_\:]+" | egrep -wi $encodage);
                       if [[ $verifcode == "" ]];then                    
                       # on peut rien faire!!!!!
                        echo "<tr><td align=\"center\">$compteur</td>
                               <td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
                               <td align=\"center\">$status2</td>
                               <td><small>$status1</small></td>
                               <td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
                               <td align=\"center\">Aucun encodage extrait...</td><td align=\"center\">-</td>
                               <td align=\"center\">-</td><td>-</td><td>-</td><td>-</td></tr>" >> $fichier_tableau ;
                           
                       else 
                           if [[ $verifcode != "" ]];then
                               echo "VERIF : <$verifcode> ==> connu par inconv, c'est parti ==> lynx, iconv..."
                               echo "ENCODAGE final : $encodage (avant conversion vers utf-8)";
                               echo "DUMP (via $encodage) de $line via lynx" ;
                               lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $line > ./DUMP-TEXT/$compteur.txt ;
                               iconv -f $encodage -t utf-8 ./DUMP-TEXT/$compteur.txt > ./DUMP-TEXT/$compteur-utf8.txt ;
                               egrep --color "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt > ./CONTEXTES/$compteur-utf8.txt ; 
                               nbmotif=$(egrep -o "($motif1)|($motif2)|($motif3)" ./DUMP-TEXT/$compteur-utf8.txt | wc -w);
                               perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue.pl  "UTF-8" ./DUMP-TEXT/$compteur-utf8.txt ./PROGRAMMES/minigrepmultilingue-v2/motif-regexp.txt ;
                               mv resultat-extraction.html ./CONTEXTES/$compteur.html ;
                               echo "ECRITURE RESULTAT dans le tableau" ;
                               echo "<tr><td align=\"center\">$compteur</td>
                                   <td align=\"center\"><a href=\"$line\">lien n°$compteur</a></td>
                                   <td align=\"center\">$status2</td>
                                   <td><small>$status1</small></td>
                                   <td align=\"center\"><a href=\"../PAGES-ASPIREES/$compteur.html\">PA n° $compteur</a></td>
                                   <td align=\"center\">$encodage<br/>via curl</td>
                                   <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur.txt\">DUMP n° $compteur</a></td>
                                   <td align=\"center\"><a href=\"../DUMP-TEXT/$compteur-utf8.txt\">DUMP n° $compteur</a></td>
                                   <td><a href=\"../CONTEXTES/$compteur-utf8.txt\">CONTEXTE n° $compteur</a></td>
                                   <td align=\"center\"><a href=\"../CONTEXTES/$compteur.html\">CONTEXTE n° $compteur</a></td>
                                   <td>$nbmotif</td></tr>" >> $fichier_tableau ;

                   
                             fi
                         fi
                    fi
                    fi
             fi
           
       fi
   compteur=$((compteur+1));   
}
    echo "</table>" >> $fichier_tableau;
}
echo "</body></html>" >> $fichier_tableau;