Vous trouverez dans cette page les différents fichiers créés à partir du script bash qui ont été utilisés dans l'analyse linguistique de ce projet " l'étude sémantique du mot geek à travers plusieurs langues".

 

Selon le corpus étudié, nous n'avons pas tous utilisé les mêmes fichiers. La raison de cette différence est simple : pour éviter les biais d'analyse, nous n'avons pas participé à l'analyse de tous les corpus. Nous nous sommes concertés sur les points à étudier : les cooccurrents de geek, les mots dérivés de geek et les autres appellations de geek présentes dans chaque corpus. Mais à partir de là, chacun a fait à sa façon. Corentin s'est occupé des corpus japonais et italien, Aurore des corpus français et anglais, et Solveig du corpus allemand tout en participant à l'analyse de l'italien et du français.

 

 

Tableaux généraux:

Anglais et Français, Italien et Japonais, Allemand.

 

Pour le corpus français :

- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web

- l'index du dumpglobal

- la liste des bigrammes du dumpglobal

- contexteglobal : la concaténation de l'ensemble des contextes autour des occurrences de geek de chaque url

- l'index du contexteglobal

- la liste des bigrammes du contexteglobal

 

Pour le corpus anglais :

- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web

- l'index du dumpglobal

- la liste des bigrammes du dumpglobal

- contexteglobal : la concaténation de l'ensemble des contextes autour des occurrences de geek de chaque url

- l'index du contexteglobal

- la liste des bigrammes du contexteglobal

 

Pour le corpus allemand :

- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web

 

Pour le corpus italien :

- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web

 

Pour le corpus japonais :

- dumpglobal : qui est la concaténation de toutes les informations textuelles des pages web