Pour visualiser correctement le birman, télécharger la police Zawgyi-One.
Les étapes techniques de notre
traitement sont détaillées sur la page du cours.
Ici nous avons voulu faire un résumé des étapes et montrer plus
particulièrement les problèmes survenus lors de l'écriture de nos
scripts, comment nous avons contourné ces problèmes, ainsi que les
pistes à
suivre à l'avenir pour les résoudre "proprement." S'ensuivent des
commentaires généraux sur les résultats de notre projet.
Le déroulement du projet
CHOIX DES PAGES |
► |
ASPIRATION DES PAGES |
► |
NETTOYAGE DES PAGES |
► |
VERIFICATION DE L'ENCODAGE |
► |
UNIFORMISATION DE
L'ENCODAGE |
► |
RECHERCHE DE MOTS-CLES |
► |
CREATION DE NUAGES |
Un blog de travail détaille la vie de notre projet : http://pe.kavoholik.cz/
Dès le début, nous étions
décidées
à essayer de faire des
scripts qui
fonctionneraient sur toutes nos langues, et hormis les problèmes
non-résolus dans le traitement du birman, nous avons réussi à créer des
scripts qui réalisent notre chaîne de traitement pour toutes, à savoir
: l'anglais, le français, le norvégien, le tchèque, l'espagnol,
l'allemand et le birman.
Certaines étapes ont été plus problèmatiques que d'autres.
Le choix des pages
Nous avons choisi de prendre des
pages apparues sur la toile,
depuis
la date symbolique du début de la transition politique vers la
démocratie, le 13 novembre 2010, date de la dernière libération de Aung
San Suu Kyi
de sa résidence surveillée. Nous avons relevé des pages qui traitent de
l'actualité de l'investissement dans l'économie Birmane et/ou de l'état
économique du pays.
La recherche s'est faite par les
mots-clés concernant le
sujet.
Très rapidement, le problème d'encodage du birman est apparu, car il
fallait chercher le motif dans des encodages birmans différents. Le
mot ရင္းႏွီးၿမဳွပ္ႏွံမွုဳ (investissement) dans l'encodage le
plus courant (Zawgyi-One) n'apparaîssait pas ! Nous avons donc essayé
de voir simplement avec စီးပြားေရး (économie), quitte à ne pas avoir
de résultats très parlants à la fin du projet.
Ensuite nous avons sauvegardé les
URLs de nos pages, une
cinquantaine par langue, dans des fichiers au format texte, un fichier
par langue. (Télécharger l'archive
du dossier de ces fichiers URL.)
La vérification de l'encodage des pages
En
BASH, la détection de l'encodage semble limitée à l'identification du
charset declaré dans les en-têtes des pages html, ou bien, avec la commande file,
la détection de l'encodage des codes Unicode en machine. Il n'y a pas
moyen, semble-t-il, de détecter si les règles Unicode concernant la
correspondance glyphe-code ou l'ordre d'écriture des caractères sont
respectés. Tous les encodages du birman rencontrés sont effectivement
en UTF-8, mais les différents systèmes d'encodage du birman n'encodent
pas la même chose en UTF-8 ! Les différences entre ces systèmes sont
expliquées sur la page le
casse-tête de l'encodage du Birman.
Nous avons conçu deux moyens de contourner ce problème. Le premier
était tout simplement de chercher un motif dans un encodage donné, ce
qui séléctionnait d'office les textes écrits dans cet encodage. C'est
ce
que nous avons fait dans nos scripts. Le deuxième était d'identifier
les différents blocs unicode encodés. Nous n'avons pas intégré ce
procédé dans nos scripts, mais Karolina nous a écrit en Perl un miniprogramme pour
tester si notre idée fonctionne.
L'uniformisation de l'encodage des pages par transformation des pages non-UTF-8 en
UTF-8
Nous devions uniformiser nos
textes en UTF-8, c'est-à-dire en Unicode
standard. Le seul moyen que nous avons trouvé de le faire pour le
birman est de passer par le logiciel KaNaung.
Pour l'utiliser, il a fallu relancer notre script sur les seules
urls en birman avec un motif dans un encodage UTF-8 non-conforme aux
règles Unicode (Zawgyi, par exemple), puis les copier-coller dans
KaNaung afin de les tranformer en Unicode standard (en choisissant
Myanmar3).
A ce jour, nous n'avons pas
trouvé comment intégrer ce
programme dans notre
script. Le logiciel KaNaung
demande à l'utilisateur les encodages d'entrée et de sortie voulus via
une interface graphique. De ce fait, il faudrait donc résoudre le problème
d'identification automatique avant de pouvoir intégrer ce logiciel de
conversion dans notre script.
La création de nuages de mots avec Wordle
La création de nuages exigent des
mots séparés par un espace,
alors que la langue birmane ne comporte pas d'espace entre ses mots. (La
notion même de "mot" est encore plus floue en birman que dans les
langues occidentales.) Nous nous sommes donc penchées sur ce problème.
C'est effectivement un problème complexe qui demanderait une approche à
multiples facettes, une solution serait de prendre en compte une liste
de mots
à reconnaître (un dictionnaire), la forme que peut prendre un mot en
birman et des considérations syntactiques. Heureusement nous avons
trouvé un outil
sur le site web du Natural Language Processing Lab à Yangon.
On aurait pu croire qu'on
touchait au but, mais cet outil
de segmentation ne fonctionne que sur les textes écrits en Zawgyi,
c'est-à-dire encodé en UTF-8 mais pas en Unicode standard. Il a donc
fallu
revenir à l'étape de vérification de l'encodage et choisir un
motif en Zawgyi et non pas en Unicode standard. Nous avons donc pu
segmenter notre fichier contextes pour le birman. L’outil ne pouvait
pas prendre des textes très longs, nous avons donc dû copier coller
tous les contextes birmans petit à petit, puis remplacer les
underscores que l'outil utilise comme délimiteurs par des espaces. Le
fichier (encodage Zawgyi-One) résultant est : myanmar_segmented_with_spaces.txt.
Ce site web n'est pas toujours
accessible, mais nous
envisageons quand même la possibilité d'écrire un script
qui nous permettrait de l'interroger automatiquement et de faciliter
ainsi
l'étape de la segmentation.
Malheureusement Wordle ne
fonctionne pas avec les scripts
complexes Unicode tel que le birman, mais nous avons tout de même
réussi à faire un
petit nuage avec WordSift.
Les résultats de notre projet
Il est apparu évident, à travers
notre travail sur ce projet,
que l’investissement dans ce pays est désormais un réel sujet
d’actualité.
Dans
les 7 langues sur lesquelles nous avons travaillé, (allemand, anglais,
birman, espagnol, français, tchèque et norvégien), réunir plus de 50
liens par langue traitants du sujet n’a certainement pas été
« mission impossible », même en se contraignant à exclure les
pdf de plus en plus fréquents sur le web.
En effet, les récents développements politiques ont placé ce
pays sur le devant de la scène internationale.
Birmanie ou Myanmar ?
Il
apparaît que, par habitude probablement, le nom encore donné à ce pays
soit le plus souvent « Birmanie ». Myanmar, lorsqu’il est
utilisé, est fréquemment suivi de mentions, telles que
« anciennement Birmanie, ou Birmanie … ».
Nos
résultats de contextes ont bien démontré que les pages sélectionnées
traitaient d’investissement(s), d’investisseur(s), d’investir, voire
d’économie, mais toujours dans des environnements mitigés.
En voici quelques exemples :
La Birmanie : nouvel Eldorado ou
miroir aux alouettes ?
Birmanie : le nouvel eldorado à
risque ... Un nouvel eldorado qui soulève pourtant des questions.
Myanmar - ein Eldorado für
Investoren?
Birmania, la nueva “caza del
tesoro” en Asia?
Burma the new El Dorado but watch
out for business pitfalls.
|