Le menu



Accueil

Le Mot

Les Scripts

Les Outils

Les Tableaux

Des Nuages

Un Bilan

Projet encadré

Le but, pour ce premier semestre du Master 1 de TAL, consistait à choisir un mot dans diverses langues.
De préférence un mot polysémique, nous avons choisi écriture en français, anglais, chinois, japonais et hindi.
Ensuite, il fallait chercher sur internet une cinquantaine d'URLS contenant ce mot dans ses divers sens et en faire une liste.
Le but de l'étape suivante était d'arriver à un script (en bash ou en perl) permettant de générer automatiquement un tableau en html avec des liens vers les pages aspirées en direct du site, ces pages recodées en utf-8 et au format txt et à l'intérieur de ces textes vers un fichier rassemblant les lignes contenant ces mots.
Et enfin de passer les fichiers textes, ainsi récoltés, à la moulinette d'un fabricateur de nuages de mots, pour voir quelles étaient les co-occurrences et la fréquence relative de ces mots. Ce site est le résultat de ce cours qui nous a permis d'apprendre à utiliser de nombreux outils informatiques.

Florence est responsable du mot en hindi et en français, Jia Li pour le mot japonais et Qingying Huang pour les mots chinois (chinois traditionnel, c'est-à-dire utilisé à Taiwan).

Pour les illustrations :

  • L'image du bambou est due à l'empereur Wu Zhen de la dynastie Yuan : 元 吴镇 dont le titre est 筼筜清影图.
  • Le bandeau du haut est écrit à l'aide de l'écriture de l'île de Pâques, que plus personne ne sait déchiffrer aujourd'hui et qui s'écrit en boustrophédon, c'est-à-dire de droite à gauche puis de gauche à droite.
  • La grande plume est une gravure du XVIIIe siècle tirée d'un traité sur l'écriture.