#!/usr/bin/bash
compteur=1;
for fichier in $(ls ./DUMPCH/)
do
    echo "$fichier";
    #tokenizer le dump chinois
    python3 tokenize_chinois.py ./DUMPCH/$fichier ./TOKENCH/token-$fichier;
    #bigramme chinois
    python3 bigram_chinois.py ./DUMPCH/$fichier ./BIGRAMME/bigram-$fichier;
    #index wordlist chinois
    egrep -o " .{2}" ./TOKENCH/token-$fichier | sort | uniq -c | sort -r | less > ./DUMP-TEXT/index-$fichier.txt;
    compteur=$((compteur + 1));
done;