#!/usr/bin/bash
#bash PROGRAMMES/programme_tableau.bash DOSSIER_URLS FICHIER_HTML MOTIF
echo "" > $2
echo "
TABLEAUX" >> $2
echo "" >> $2
comtab=1
for fichier in $(ls $1)
do
echo '' > corpus-$comtab.txt
echo '' > corpus_ctx-$comtab.txt
compteur=1
echo "" >> $2
echo "
N° du lien |
Code Http |
URL |
Page aspirée |
Dump text |
Encodage |
Contexte |
Context HTML |
Fq Motif |
Index |
Bigramme |
Trigramme |
" >> $2
for ligne in $(cat $1/$fichier)
do
code_sortie=$(curl -sIL $ligne | head -n1 | cut -d" " -f2)
if [[ $code_sortie == 200 ]]
then
curl -sL -o ./PAGES-ASPIREES/$comtab-$compteur.html $ligne
encodage=$(egrep -oi "charset=[\"a-zA-Z0-9-]*" ./PAGES-ASPIREES/$comtab-$compteur.html | head -1 | cut -d"=" -f2 | egrep -oi "[a-zA-Z0-9-]*" | tr "[a-z]" "[A-Z]")
echo "ligne$comtab-$compteur encodage: $encodage"
if [[ $encodage == "UTF-8" ]]
then
lynx --assume-charset="UTF-8" --display-charset="UTF-8" -dump -nolist $ligne > ./DUMP-TEXT/$comtab-$compteur.txt
egrep -i "$3" ./DUMP-TEXT/$comtab-$compteur.txt > ./CONTEXTES/$comtab-$compteur.txt
echo -e "\n" >> corpus-$comtab.txt
cat ./DUMP-TEXT/$comtab-$compteur.txt >> corpus-$comtab.txt
echo -e "\n\n" >> corpus-$comtab.txt
echo -e "\n" >> corpus_ctx-$comtab.txt
cat ./CONTEXTES/$comtab-$compteur.txt >> corpus_ctx-$comtab.txt
echo -e "\n\n" >> corpus_ctx-$comtab.txt;
nbmotif=$(egrep -coi "$3" ./DUMP-TEXT/$comtab-$compteur.txt)
perl5.28.0.exe ./minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$comtab-$compteur.txt ./minigrep/motif-regexp.txt
mv resultat-extraction.html ./CONTEXTES/$comtab-$compteur.html
egrep -o "\w+" ./DUMP-TEXT/$comtab-$compteur.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$comtab-$compteur-index.txt
egrep -o "\w+" ./DUMP-TEXT/$comtab-$compteur.txt > bi1.txt
tail -n +2 bi1.txt > bi2.txt
tail -n +2 bi2.txt > bi3.txt
paste bi1.txt bi2.txt > big.txt
paste big.txt bi3.txt > tri.txt
cat big.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$comtab-$compteur-bigramme.txt
cat tri.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$comtab-$compteur-trigramme.txt
echo "
$comtab-$compteur |
$code_sortie |
Lien n°$compteur |
Page aspirée n° $comtab-$compteur |
Dump txt n°$comtab-$compteur |
$encodage |
Ctx $comtab-$compteur |
Ctx HTML $comtab-$compteur |
$nbmotif |
Index $comtab-$compteur |
Bigramme $comtab-$compteur |
Trigramme $comtab-$compteur |
" >> $2
else
reponse=$(iconv -l | egrep "$encodage")
if [[ $reponse != "" ]]
then
if [[ $encodage != "" ]]
then
lynx --assume-charset="UTF-8" --display-charset="UTF-8" -dump -nolist $ligne > ./DUMP-TEXT/$comtab-$compteur-$encodage.txt
iconv -s -f "$encodage" -t "UTF-8" ./DUMP-TEXT/$comtab-$compteur-$encodage.txt > ./DUMP-TEXT/$comtab-$compteur.txt
echo -e "\n" >> corpus-$comtab.txt
cat ./DUMP-TEXT/$comtab-$compteur.txt >> corpus-$comtab.txt
echo -e "\n\n" >> corpus-$comtab.txt
egrep -i "$3" ./DUMP-TEXT/$comtab-$compteur.txt > ./CONTEXTES/$comtab-$compteur.txt
echo -e "\n" >> corpus_ctx-$comtab.txt
cat ./CONTEXTES/$comtab-$compteur.txt >> corpus_ctx-$comtab.txt
echo -e "\n\n" >> corpus_ctx-$comtab.txt
nbmotif=$(egrep -coi "$3" ./DUMP-TEXT/$comtab-$compteur.txt)
perl5.28.0.exe ./minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$comtab-$compteur.txt ./minigrep/motif-regexp.txt
mv resultat-extraction.html ./CONTEXTES/$comtab-$compteur.html
egrep -o "\w+" ./DUMP-TEXT/$comtab-$compteur.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$comtab-$compteur-index.txt
egrep -o "\w+" ./DUMP-TEXT/$comtab-$compteur.txt > bi1.txt
tail -n +2 bi1.txt > bi2.txt
tail -n +2 bi2.txt > bi3.txt
paste bi1.txt bi2.txt > big.txt
paste big.txt bi3.txt > tri.txt
cat big.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$comtab-$compteur-bigramme.txt
cat tri.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$comtab-$compteur-trigramme.txt
echo "
$comtab-$compteur |
$code_sortie |
$ligne |
Page aspirée n° $comtab-$compteur |
Dump txt n°$comtab-$compteur |
$encodage |
Ctx $comtab-$compteur |
Ctx HTML $comtab-$compteur |
$nbmotif |
Index $comtab-$compteur |
Bigramme $comtab-$compteur |
Trigramme $comtab-$compteur |
" >> $2
else
echo -e "PB Encodage...$comtab::$compteur::$code_sortie::$encodage::$ligne\n"
echo "
$comtab-$compteur |
$code_sortie |
$ligne |
Page aspirée n° $comtab-$compteur |
- |
- |
- |
- |
- |
- |
- |
- |
" >> $2
fi
else
echo -e "PB Encodage...$comtab::$compteur::$code_sortie::$encodage::$ligne\n"
echo "
$comtab-$compteur |
$code_sortie |
$ligne |
Page aspirée n° $comtab-$compteur |
- |
- |
- |
- |
- |
- |
- |
- |
" >> $2
fi
fi
else
echo -e "PB URL...$comtab::$compteur::$code_sortie::::$ligne\n"
echo "
$comtab-$compteur |
$code_sortie |
$ligne |
- |
- |
- |
- |
- |
- |
- |
- |
- |
" >> $2
fi
compteur=$((compteur+1))
done
echo "
" >> $2
egrep -o "\w+" ./corpus-$comtab.txt | sort | uniq -c | sort -r > corpus-$comtab-index.txt
egrep -o "\w+" ./corpus_ctx-$comtab.txt | sort | uniq -c | sort -r > corpus_ctx-$comtab-index.txt
echo "
Corpus N° $comtab |
Contexte N° $comtab |
Corpus index N° $comtab |
Contexte index N° $comtab |
" >> $2
echo "
" >> $2
comtab=$((comtab + 1))
done
echo "" >> $2
echo "" >> $2