Ce tableau, produit par le script bash décrit sur cette page, contient le détail du corpus : url, encodage, présence de notre motif...
Attention, des problèmes d'encodage importants peuvent apparaitre si vous visualisez les documents directement depuis votre navigateur. Il est conseillé d'enregistrer les fichiers autres que html (les dumps par exemple) et de les visualiser depuis un éditeur tel que Notepad++
Le tableau suivant est généré automatiquement à partir de la liste des URL du corpus triées par langue. Seuls quelques ajouts de mise en page ont été effectués pour la présente publication.
Vous pouvez aussi consulter directement le fichier html produit entièrement automatiquement par notre script en suivant ce lien.