#!/bin/bash exec < parametres.txt; read dossier; echo "Dossier contenant les URL : $dossier "; read tablo; echo "Creation du tableau $tablo"; read motif; echo "Motif : $motif"; cpttableau=1; echo "" > $tablo ; for fichier in `ls $dossier` { i=1 echo "" >> $tablo; echo "" >> $tablo ; echo "" >> $tablo for nom in `cat $dossier/$fichier` { curl -o ./PAGES-ASPIREES/$cpttableau-$i.html $nom ; status_curl1=$(curl -sI $nom | head -n 1); status_curl2=$(curl --silent --output ./PAGES-ASPIREES/$cpttableau-$i.html --write-out "%{http_code}" $nom); encodage=$(curl -sI $nom | egrep -i "charset=" | cut -f2 -d= | tr -d "\n" | tr -d "\r" | tr "[:upper:]" "[:lower:]"); if [[ $encodage == "utf-8" ]] then lynx -dump -nolist -assume_charset=$encodage -display_charset $encodage $nom > ./DUMP-TEXT/$cpttableau-$i.txt ; cat ./DUMP-TEXT/$cpttableau-$i.txt | sh process_sed.sh > ./DUMP-TEXT/$cpttableau-$i.txt; egrep -i $motif ./DUMP-TEXT/$cpttableau-$i.txt > ./CONTEXTES/$cpttableau-$i.txt nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$i.txt); echo "" >> $tablo; else encodage2=$(curl -sI $nom | egrep -i "charset=" | cut -f2 -d= | tr -d "\n" | tr -d "\r" | tr "[:upper:]" "[:lower:]"); test_encodage=$(iconv -l | egrep -o -i $encodage2 | sort -f -u); if [[ $encodage2 != "" ]] then lynx -dump -nolist -assume_charset=$encodage2 -display_charset $encodage2 $nom > ./DUMP-TEXT/$cpttableau-$i.txt ; iconv -f $encodage2 -t utf-8 ./DUMP-TEXT/$cpttableau-$i.txt > ./DUMP-TEXT/$cpttableau-$i-utf8.txt cat ./DUMP-TEXT/$cpttableau-$i.txt | sh process_sed.sh > ./DUMP-TEXT/$cpttableau-$i.txt; cat ./DUMP-TEXT/$cpttableau-$i-utf8.txt | sh process_sed.sh > ./DUMP-TEXT/$cpttableau-$i-utf8.txt; egrep -i $motif ./DUMP-TEXT/$cpttableau-$i-utf8.txt > ./CONTEXTES/$cpttableau-$i.txt ; nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$i-utf8.txt); echo "" >> $tablo; else encodage3=$(file -i ./PAGES-ASPIREES/$cpttableau-$i.html | cut -d= -f2); lynx -dump -nolist -assume_charset=$encodage3 -display_charset $encodage3 $nom > ./DUMP-TEXT/$cpttableau-$i.txt ; iconv -f $encodage3 -t utf-8 ./DUMP-TEXT/$cpttableau-$i.txt > ./DUMP-TEXT/$cpttableau-$i-utf8.txt cat ./DUMP-TEXT/$cpttableau-$i.txt | sh process_sed.sh > ./DUMP-TEXT/$cpttableau-$i.txt; cat ./DUMP-TEXT/$cpttableau-$i-utf8.txt | sh process_sed.sh > ./DUMP-TEXT/$cpttableau-$i-utf8.txt; egrep -i $motif ./DUMP-TEXT/$cpttableau-$i-utf8.txt > ./CONTEXTES/$cpttableau-$i.txt ; nbmotif=$(egrep -coi $motif ./DUMP-TEXT/$cpttableau-$i-utf8.txt); echo "" >> $tablo; fi fi let "i+=1" ; } echo "
tableau n° $cpttableau
LienCODE CURLStatut CURLPage AspireeEncodage InitialDUMP initialDUMP UTF-8CONTEXTE UTF-8fq MOTIF
Nº$cpttableau-$iLien nº$cpttableau-$i$status_curl2$status_curl1P.A. N$cpttableau-$i$encodage - DUMP Nº$cpttableau-$iCTXT Nº$cpttableau-$i$nbmotif
Nº$cpttableau-$iLien nº$i$status_curl2$status_curl1P.A. Nº$cpttableau-$i$encodage2DUMP Nº$cpttableau-$iDUMP Nº$cpttableau-$iCTXT Nº$cpttableau-$i$nbmotif
Nº$cpttableau-$iLien nº$cpttableau-$i$status_curl2$status_curl1P.A. Nº$cpttableau-$i$encodage3DUMP Nº$cpttableau-$iDUMP Nº$cpttableau-$iCTXT Nº$cpttableau-$i$nbmotif
" >> $tablo ; let "cpttableau=cpttableau+1"; } echo "" >> $tablo