POUR fichier url dans le répertoire URL
créer une table avec une ligne de titres
POUR ligne(= lien) dans un fichier url
SI code Http du lien est bon
SI tableau = chinois
ALORS ENCODAGE
SI ENCODAGE est utf-8
PA / aspiration du lien
dump du lien + segmentation + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE n’est pas utf-8
SI ENCODAGE est vide
ALORS ENCODAGE - PA
SI ENCODAGE - PA est en utf-8
dump du lien + segmentation + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE - PA n’est pas en utf-8
iconv
PA / aspiration de la page
dump du lien + segmentation + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE n’est pas vide
SI ENCODAGE existe dans iconv
PA / aspiration du lien
dump du lien + segmentation + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE n’existe pas dans iconv
URL poubelle
ELSE tableau n’est pas tableau chinois
ALORS ENCODAGE
SI ENCODAGE est utf-8
PA / aspiration du lien
dump du lien + segmentation + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE n’est pas utf-8
SI ENCODAGE est vide
ALORS ENCODAGE - PA
SI ENCODAGE - PA est en utf-8
dump du lien + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE - PA n’est pas en utf-8
iconv
PA / aspiration de la page
dump du lien + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE n’est pas vide
SI ENCODAGE existe dans iconv
PA / aspiration du lien
dump du lien + contexte du motif + fréquence du motif + index + bigramme
écrire une ligne avec les colonnes
ELSE ENCODAGE n’existe pas dans iconv
URL poubelle
SI code Http du lien n’est pas bon
Rien faire