Le mot "migrant" : variations sur le web

Tableaux

Ici, vous trouverez les tableaux générés par notre programme. Il dispose de plusieurs colonnes : une numérotation, les URLs numérotées ainsi que leur lien direct, les liens vers les pages aspirées (pour des soucis de présentation, nous avons préféré éviter d'afficher le nom complet des URLs qui rendaient des colonnes assymétriques), les liens vers les DUMP initiaux, puis encodés en UTF-8, les liens vers les contextes générés en format .txt et ceux récupérés par le programme Minigrep, et enfin, le nombre d'occurrences trouvées par lien.
A la fin de chaque tableau, des colonnes donnent les liens des fichiers globaux des DUMP et des contextes concaténés. Grâce à la colonne "ret. WGET" qui retourne une erreur lorsque c'est le cas, le programme signale que la page en question n'a pas pu être aspirée : le traitement n'a donc pas pu être fait.
Voici ci-dessous les captures d'écran pour chacun des tableaux. Vous pouvez voir qu'ils sont traités par langue, et par thème (blogs/forums, presse, politique).

Les tableaux sont visibles en intégralité ici !


Master Ingénierie Linguistique - Tableaux