TABLEAUX
CORPUS
Vous trouverez dans cette partie les fichiers des dumps-concate-complet et des contexts-concate-complet, ainsi que les tableaux complets. Les fichiers sont également prêts à télécharger par un simple clique sur leur nom.
FRANÇAIS
Dump-complet : Corpus français de textes dump formattés
Context : Corpus français de contextes
ANGLAIS
Dump-complet : Corpus anglais de textes dump formattés
Context : Corpus anglais de contextes
CHINOIS
Dump-complet : Corpus chinois de textes dump formattés
Context : Corpus chinois de contextes
FILIPINO
Dump-complet : Corpus filipino de textes dump formattés
Context : Corpus filipino de contextes
LÉGENDE DES TABLEAUX
-
N° : numéro
-
CODE : code http pour cette URL
-
LIEN : URL
-
P.A. : page HTML aspirée
-
ENC. INIT : encodage initial (utf-8, gb2312, etc)
-
ENC. FIN : encodage final (utf-8)
-
DUMP : texte dump utf8 formaté
-
CONTEXT : contexte txt utf8, une ligne avant et après le motif
-
CONTEXT HTML : contexte au formal HTML, généré à l'aide de minigrep
-
FQ MOTIF : fréquence du motif dans le texte dump utf8 formatté
-
INDEX : index de lemmes du fichier contexte, par ordre de fréquence décroissante
-
BIGRAMME : 2gram du fichier contexte, par ordre de fréquence décroissante