Le but, pour ce premier semestre du Master 1 de TAL, consistait à choisir un mot dans diverses langues.
De préférence un mot polysémique, nous avons choisi écriture en français, anglais, chinois, japonais et hindi.
Ensuite, il fallait chercher sur internet une cinquantaine d'URLS contenant ce mot dans ses divers sens et en faire une liste.
Le but de l'étape suivante était d'arriver à un script (en bash ou en perl) permettant de générer automatiquement un tableau en html avec des liens vers les pages aspirées en direct du site, ces pages recodées en utf-8 et au format txt et à l'intérieur de ces textes vers un fichier rassemblant les lignes contenant ces mots.
Et enfin de passer les fichiers textes, ainsi récoltés, à la moulinette d'un fabricateur de nuages de mots, pour voir quelles étaient les co-occurrences et la fréquence relative de ces mots.
Ce site est le résultat de ce cours qui nous a permis d'apprendre à utiliser de nombreux outils informatiques.
Florence est responsable du mot en hindi et en français, Jia Li pour le mot japonais et Qingying Huang pour les mots chinois (chinois traditionnel, c'est-à-dire utilisé à Taiwan).