#!/usr/bin/bash #bash PROGRAMMES/programme_tableau.bash FICHIER_URLS FICHIER_HTML MOTIF [FR|EN|CN] echo "" > $2 echo "TABLEAU $4" >> $2 echo "" >> $2 echo "

TABLEAUX $4


" >> $2 echo '' > corpus-$4.txt echo '' > corpus_ctx-$4.txt compteur=1 echo "

" >> $2 echo "" >> $2 for ligne in $(cat $1) do code_sortie=$(curl -sIL $ligne | head -n1 | cut -d" " -f2) if [[ $code_sortie == 200 ]] then curl -sL -o ./PAGES-ASPIREES/$4-$compteur.html $ligne encodage=$(egrep -oi "charset=[\"a-zA-Z0-9-]*" ./PAGES-ASPIREES/$4-$compteur.html | head -1 | cut -d"=" -f2 | egrep -oi "[a-zA-Z0-9-]*" | tr "[a-z]" "[A-Z]") echo "ligne$4-$compteur encodage: $encodage" if [[ $encodage == "UTF-8" ]] then lynx --assume-charset="UTF-8" --display-charset="UTF-8" -dump -nolist $ligne > ./DUMP-TEXT/$4-$compteur.txt egrep -i "$3" ./DUMP-TEXT/$4-$compteur.txt > ./CONTEXTES/$4-$compteur.txt echo -e "\n" >> corpus-$4.txt cat ./DUMP-TEXT/$4-$compteur.txt >> corpus-$4.txt echo -e "\n\n" >> corpus-$4.txt echo -e "\n" >> corpus_ctx-$4.txt cat ./CONTEXTES/$4-$compteur.txt >> corpus_ctx-$4.txt echo -e "\n\n" >> corpus_ctx-$4.txt nbmotif=$(egrep -coi "$3" ./DUMP-TEXT/$4-$compteur.txt) perl5.28.0.exe ./minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$4-$compteur.txt ./minigrep/motif-regexp.txt mv resultat-extraction.html ./CONTEXTES/$4-$compteur.html egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-index.txt egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt > bi1.txt tail -n +2 bi1.txt > bi2.txt tail -n +2 bi2.txt > bi3.txt paste bi1.txt bi2.txt > big.txt paste big.txt bi3.txt > tri.txt cat big.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-bigramme.txt cat tri.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-trigramme.txt echo "" >> $2 else reponse=$(iconv -l | egrep "$encodage") if [[ $reponse != "" ]] then if [[ $encodage != "" ]] then lynx --assume-charset="UTF-8" --display-charset="UTF-8" -dump -nolist $ligne > ./DUMP-TEXT/$4-$compteur-$encodage.txt iconv -s -f "$encodage" -t "UTF-8" ./DUMP-TEXT/$4-$compteur-$encodage.txt > ./DUMP-TEXT/$4-$compteur.txt echo -e "\n" >> corpus-$4.txt cat ./DUMP-TEXT/$4-$compteur.txt >> corpus-$4.txt echo -e "\n\n" >> corpus-$4.txt egrep -i "$3" ./DUMP-TEXT/$4-$compteur.txt > ./CONTEXTES/$4-$compteur.txt echo -e "\n" >> corpus_ctx-$4.txt cat ./CONTEXTES/$4-$compteur.txt >> corpus_ctx-$4.txt echo -e "\n\n" >> corpus_ctx-$4.txt nbmotif=$(egrep -coi "$3" ./DUMP-TEXT/$4-$compteur.txt) perl5.28.0.exe ./minigrep/minigrepmultilingue.pl "utf-8" ./DUMP-TEXT/$4-$compteur.txt ./minigrep/motif-regexp.txt mv resultat-extraction.html ./CONTEXTES/$4-$compteur.html egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-index.txt egrep -o "\w+" ./DUMP-TEXT/$4-$compteur.txt > bi1.txt tail -n +2 bi1.txt > bi2.txt tail -n +2 bi2.txt > bi3.txt paste bi1.txt bi2.txt > big.txt paste big.txt bi3.txt > tri.txt cat big.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-bigramme.txt cat tri.txt | sort | uniq -c | sort -r > ./DUMP-TEXT/$4-$compteur-trigramme.txt echo "" >> $2 else echo -e "PB Encodage...$4::$compteur::$code_sortie::$encodage::$ligne\n" echo "" >> $2 fi else echo -e "PB Encodage...$4::$compteur::$code_sortie::$encodage::$ligne\n" echo "" >> $2 fi fi else echo -e "PB URL...$4::$compteur::$code_sortie::::$ligne\n" echo "" >> $2 fi compteur=$((compteur+1)) done echo "
Code Http URL Page aspirée Dump text Encodage Contexte Context HTML Fq Motif Index Bigramme Trigramme
$4-$compteur $code_sortie Lien $compteur Aspirée $compteur Dump $compteur $encodage Ctx $compteur Ctx HTML $compteur $nbmotif Index $compteur Bigr $compteur Trigr $compteur
$4-$compteur $code_sortie Lien $compteur Aspirée $compteur Dump $compteur $encodage Ctx $compteur Ctx HTML $compteur $nbmotif Index $compteur Bigr $compteur Trigr $compteur
$4-$compteur $code_sortie Lien $compteur Aspirée $compteur - - - - - - - -
$4-$compteur $code_sortie Lien $compteur Aspirée $compteur - - - - - - - -
$4-$compteur $code_sortie Lien $compteur Aspirée $compteur - - - - - - - -
" >> $2 egrep -o "\w+" ./corpus-$4.txt | sort | uniq -c | sort -r > corpus-$4-index.txt egrep -o "\w+" ./corpus_ctx-$4.txt | sort | uniq -c | sort -r > corpus_ctx-$4-index.txt echo "
Corpus $4 Contexte $4 Corpus index $4 Contexte index $4
" >> $2 echo "" >> $2 echo "" >> $2