Vous trouverez dans cette page les différents fichiers créés à partir du script bash qui ont été utilisés dans l'analyse linguistique de ce projet " l'étude sémantique du mot geek à travers plusieurs langues".
Selon le corpus étudié, nous n'avons pas tous utilisé les mêmes fichiers. La raison de cette différence est simple : pour éviter les biais d'analyse, nous n'avons pas participé à l'analyse de tous les corpus. Nous nous sommes concertés sur les points à étudier : les cooccurrents de geek, les mots dérivés de geek et les autres appellations de geek présentes dans chaque corpus. Mais à partir de là, chacun a fait à sa façon. Corentin s'est occupé des corpus japonais et italien, Aurore des corpus français et anglais, et Solveig du corpus allemand tout en participant à l'analyse de l'italien et du français.
Tableaux généraux:
Anglais et Français, Italien et Japonais, Allemand.
Pour le corpus français :
- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web
- la liste des bigrammes du dumpglobal
- contexteglobal : la concaténation de l'ensemble des contextes autour des occurrences de geek de chaque url
- la liste des bigrammes du contexteglobal
Pour le corpus anglais :
- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web
- la liste des bigrammes du dumpglobal
- contexteglobal : la concaténation de l'ensemble des contextes autour des occurrences de geek de chaque url
- la liste des bigrammes du contexteglobal
Pour le corpus allemand :
- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web
Pour le corpus italien :
- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web
Pour le corpus japonais :
- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web