Or, nous avons rencontré quelques problèmes après l’installation : fonctionnement lent, détection d’USB port, transmission de fichier ou de répertoire de Windows à Ubuntu.
Après avoir mis à jour vers la dernière version d’Oracle VirtualBox, nous avons pu détecter la clé USB sous Ubuntu en séparant les ports d’USB en deux systèmes. C’est-à-dire, un port utilisé uniquement sous Windows et l’autre sous Ubuntu.
Pourtant, transmettre des fichiers de Windows reste toujours un rêve.
Worditout, il est impossible de choisir de supprimer les mots vides, donc, dans le résultat, ce n’est pas le mot « écriture » en chinois qui apparaît le plus gros.
WordSift pour avoir le nuage de mot en japonais, nous avons trouvé beaucoup de mots anglais dans le résultat, parce que dans les contextes, nous avons aussi des mots anglais. En plus, on ne peut pas les supprimer avec les options de Wordsift. Donc, le résultat nous plaît moins que celui de Taxgedo en chinois et en japonais. En revanche, Tagexdo ne traite pas le hindi, tout cela est en suspens…
La voici : nbOccur = $(egrep -o "$motif"../DUMP-TEXT/$i-utf8.txt | sort | uniq -c)
à la place de nbOccur =`egrep -o -i "\b$motif\b"../DUMP-TEXT/$i-utf8.txt | wc -l`
pour le français et l’anglais.
En plus, on obtient un résultat différent en utilisant egrep – w et – o. Après interrogation du professeur, l’explication est trouvée : avec – w, on compte simplement le mot même si le motif apparaît plusieurs fois dans une ligne, il ne compte qu’une fois. Tandis qu’avec – o, cela compte le nombre des occurrences, donc à chaque fois que le motif apparaît, il est compté. Ainsi, les résultats avec – o et – w sont différents.
Sur Mac, egrep veut bien accepter l’option –i (sans souci de la casse) et l’option –o (les occurrences) mais refuse catégoriquement de faire –io. Il a donc fallu faire un pipe de plus pour transformer les minuscules en majuscules, seule forme reconnue par iconv.
Au début, dans le tableau obtenu après avoir exécuté notre programme, File affichait ISO-8859-1 à la pace de BIG-5, ce qui n’est pas l’encodage réel du fichier. Si File ne trouve rien dans la zone des caractères accentués, il considère automatiquement que c’est du ISO-8859-1. Ainsi, nous n’avons rien eu de lisible dans le dump texte. Pour résoudre ce problème, nous avons modifié le script en ajoutant une partie de traitement pour chercher uniquement BIG-5. S’il le trouve, le programme le convertit en UTF-8 puis cherche le motif. Donc, pour traiter le chinois, nous avons écrit 3 étapes dans le script : 1. Si c’est en UTF-8, on continue. 2. Si c’est BIG-5, on le convertit en UTF-8, puis continue le processus. 3. Si c’est un autre codage, on le convertit en UTF-8 aussi, puis on continue.
Il faudrait donc lui réserver un traitement spécial.