#!/usr/bin/bash
#bash PROGRAMMES/programme_tableau.bash FICHIER_URLS FICHIER_HTML MOTIF [FR|EN|CN]
echo "" > $2
echo "
TABLEAU $4" >> $2
echo "" >> $2
echo "
TABLEAUX $4
" >> $2
echo '' > corpus-$4.txt
echo '' > corpus_ctx-$4.txt
compteur=1
echo "" >> $2
echo "
N° |
Code Http |
URL |
Page aspirée |
Dump text |
Encodage |
Contexte |
Context HTML |
Fq Motif |
Index |
Bigramme |
Trigramme |
" >> $2
for ligne in $(cat $1)
do
code_sortie=$(curl -sIL $ligne | head -n1 | cut -d" " -f2)
if [[ $code_sortie == 200 ]]
then
curl -sL -o ./PAGES-ASPIREES/$4-$compteur.html $ligne
encodage=$(egrep -oi "charset=[\"a-zA-Z0-9-]*" ./PAGES-ASPIREES/$4-$compteur.html | head -1 | cut -d"=" -f2 | egrep -oi "[a-zA-Z0-9-]*" | tr "[a-z]" "[A-Z]")
echo "ligne$4-$compteur encodage: $encodage"
if [[ $encodage == "UTF-8" ]]
then
lynx --assume-charset="UTF-8" --display-charset="UTF-8" -dump -nolist $ligne > ./DUMP-TEXT/$4-$compteur.txt
egrep -i "$3" ./DUMP-TEXT/$4-$compteur.txt > ./CONTEXTES/$4-$compteur.txt
echo -e "\n" >> corpus-$4.txt
cat ./DUMP-TEXT/$4-$compteur.txt >> corpus-$4.txt
echo -e "\n\n" >> corpus-$4.txt
echo -e "\n" >> corpus_ctx-$4.txt
cat ./CONTEXTES/$4-$compteur.txt >> corpus_ctx-$4.txt
echo -e "\n\n" >> corpus_ctx-$4.txt
nbmotif=$(egrep -coi "$3" ./DUMP-TEXT/$4-$compteur.txt)
perl5.28.0.exe ./minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$4-$compteur.txt ./minigrep/motif-regexp.txt
mv resultat-extraction.html ./CONTEXTES/$4-$compteur.html
egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-index.txt
egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt > bi1.txt
tail -n +2 bi1.txt > bi2.txt
tail -n +2 bi2.txt > bi3.txt
paste bi1.txt bi2.txt > big.txt
paste big.txt bi3.txt > tri.txt
cat big.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-bigramme.txt
cat tri.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-trigramme.txt
echo "
$4-$compteur |
$code_sortie |
Lien $compteur
|
Aspirée $compteur
|
Dump $compteur
|
$encodage |
Ctx $compteur
|
Ctx HTML $compteur
|
$nbmotif |
Index $compteur
|
Bigr $compteur
|
Trigr $compteur
|
" >> $2
else
reponse=$(iconv -l | egrep "$encodage")
if [[ $reponse != "" ]]
then
if [[ $encodage != "" ]]
then
lynx --assume-charset="UTF-8" --display-charset="UTF-8" -dump -nolist $ligne > ./DUMP-TEXT/$4-$compteur-$encodage.txt
iconv -s -f "$encodage" -t "UTF-8" ./DUMP-TEXT/$4-$compteur-$encodage.txt > ./DUMP-TEXT/$4-$compteur.txt
echo -e "\n" >> corpus-$4.txt
cat ./DUMP-TEXT/$4-$compteur.txt >> corpus-$4.txt
echo -e "\n\n" >> corpus-$4.txt
egrep -i "$3" ./DUMP-TEXT/$4-$compteur.txt > ./CONTEXTES/$4-$compteur.txt
echo -e "\n" >> corpus_ctx-$4.txt
cat ./CONTEXTES/$4-$compteur.txt >> corpus_ctx-$4.txt
echo -e "\n\n" >> corpus_ctx-$4.txt
nbmotif=$(egrep -coi "$3" ./DUMP-TEXT/$4-$compteur.txt)
perl5.28.0.exe ./minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$4-$compteur.txt ./minigrep/motif-regexp.txt
mv resultat-extraction.html ./CONTEXTES/$4-$compteur.html
egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-index.txt
egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt > bi1.txt
tail -n +2 bi1.txt > bi2.txt
tail -n +2 bi2.txt > bi3.txt
paste bi1.txt bi2.txt > big.txt
paste big.txt bi3.txt > tri.txt
cat big.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-bigramme.txt
cat tri.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-trigramme.txt
echo "
$4-$compteur |
$code_sortie |
Lien $compteur
|
Aspirée $compteur
|
Dump $compteur
|
$encodage |
Ctx $compteur
|
Ctx HTML $compteur
|
$nbmotif |
Index $compteur
|
Bigr $compteur
|
Trigr $compteur
|
" >> $2
else
echo -e "PB Encodage...$4::$compteur::$code_sortie::$encodage::$ligne\n"
echo "
$4-$compteur |
$code_sortie |
Lien $compteur
|
Aspirée $compteur
|
- |
- |
- |
- |
- |
- |
- |
- |
" >> $2
fi
else
echo -e "PB Encodage...$4::$compteur::$code_sortie::$encodage::$ligne\n"
echo "
$4-$compteur |
$code_sortie |
Lien $compteur
|
Aspirée $compteur
|
- |
- |
- |
- |
- |
- |
- |
- |
" >> $2
fi
fi
else
echo -e "PB URL...$4::$compteur::$code_sortie::::$ligne\n"
echo "
$4-$compteur |
$code_sortie |
Lien $compteur
|
Aspirée $compteur
|
- |
- |
- |
- |
- |
- |
- |
- |
" >> $2
fi
compteur=$((compteur+1))
done
echo "
" >> $2
egrep -o "\w+" ./corpus-$4.txt | sort | uniq -c | sort -r > corpus-$4-index.txt
egrep -o "\w+" ./corpus_ctx-$4.txt | sort | uniq -c | sort -r > corpus_ctx-$4-index.txt
echo "" >> $2
echo "" >> $2
echo "" >> $2