Cours n°1 Année 2004-2005
Dates : 05.11.2004, 19.11.2004. Lieu : INALCO.
- Ce cours est "piloté" par Jean Michel Daube (INALCO)
- Cours du 05.11.2004 assuré par Michel JACOBSON (LACITO)
Michel Jacobson : Ingénieur informatique au CNRS/LACITO (développement d'outils de gestion (création, diffusion, interrogation, etc.) de documents linguistique texte-son sur des langues "rares")
- Cours du 19.11.2004 assuré par les enseignants pluriTAL de l'INALCO : Jean-François Perrot (LIP6), Anne-Marie Moreaux (INALCO), Pierre Zweigenbaum (INALCO), François Stuck (INALCO), Michel Botttin (Ministère de la culture), Jean-Michel Daube (INALCO) (cf TP infra).
Ressources pour ce cours
Liens
- Conception de pages multilingues pour le Web sur le site bottin.hd.free.fr
- C'est quoi l'ASCII, l'UNICODE, l'UTF-8 ? sur le site sebsauvage.net/
- Le codage des caractères sur le site www.commentcamarche.net
- A tutorial on character code issues
- Mémo IETF : Efficient Transformation Formats of Unicode
- "Le traitement informatique des documents en caractères non latins", Amélie DUPAS, Rapport de stage, Service commun de la documentation de l’Université Jean Moulin Lyon 3, 1996-1997
- Clavier Unicode (1) : http://perso.wanadoo.fr/michel.staelens/clavier/index.htm
- Clavier Unicode (2) : http://home.doramail.com/yuval/
- Clavier Unicode (3) : http://www.cs.tut.fi/~jkorpela/gwrite/
- Clavier Unicode (4) : http://virtual-keyboard.imtranslator.com/
- Clavier Unicode (5) : http://www.freetoolkit.net/textnum/tool.php?tool=unicode
- Clavier Unicode (6) : http://www.atm.ox.ac.uk/user/iwi/charmap.html
Supports
- Transparents 29.10.2004 (introduction)
- Transparents 05.11.2004 Encodage des caractères (Michel Jacobson (CNRS/LACITO))
Les systèmes de codage de caractères que l'on trouve aujourd'hui s'inspirent des anciens systèmes mis en place par les typographes (les différentes casses, leur organisation, la distinction caractère - oeil d'un caractère, etc.). L'histoire des codes caractères en informatique peut se suivre aussi à travers celle des standards et des normes qui ont été proposés : de l'ASCII à l'ISO-10646. Nous insisterons plus particulièrement sur le code Unicode qui a notament pour vocation d'être universel (tous les écritures du monde). Nous verrons un certain nombre de propriétés de ce code caractère : (1) La différence langues / écritures, (2) La différence caractères / glyphes, (3) L'algorithme d'écriture bidirectionel (BIDI), (4) Le Byte Order Mark (BOM), (5) Les décompositions-compositions canoniques et de compatibilités
- Transparents 19.11.2004 Pages Web multilingues avec UTF-8. Exemples turcs et indiens (Jean-François Perrot (LIP6)).
TP
Objectif
Construire une page web multilingue (type définitions de dictionnaire) à partir du mot laïcité dont la définition sera présentée en anglais, arabe, chinois, japonais, etc. avec traduction en français.
- Texte du TP 19.11.2004 CREATION D’UNE PAGE MULTILINGUE
Pages multilingues disponibles : pages en chinois, en anglais, en japonais et en arabe avec les pages de traduction.
Version 1 :
- Définition "laïcité" : chinois, traduction
- Définition "laïcité" : arabe, traduction
- Définition "laïcité" : anglais, traduction
- Définition "laïcité" : japonais, traduction
Version 2 ("illegal") :
- Définition "laïcité" : chinois, traduction
- Définition "laïcité" : arabe, traduction
- Définition "laïcité" : anglais, traduction
- Définition "laïcité" : japonais, traduction
http://pluriTAL.org | pluriTAL ©2016, INALCO, Paris Ouest, Paris 3