L’attractivité de l'économie de la Birmanie

Pour visualiser correctement le birman, télécharger la police Zawgyi-One.

Les étapes techniques de notre traitement sont détaillées sur la page du cours. Ici nous avons voulu faire un résumé des étapes et montrer plus particulièrement les problèmes survenus lors de l'écriture de nos scripts, comment nous avons contourné ces problèmes, ainsi que les pistes à suivre à l'avenir pour les résoudre "proprement." S'ensuivent des commentaires généraux sur les résultats de notre projet.

Le déroulement du projet

CHOIX DES PAGES

►

ASPIRATION DES PAGES

►

NETTOYAGE DES PAGES

►

VERIFICATION DE L'ENCODAGE

►

UNIFORMISATION DE L'ENCODAGE

►

RECHERCHE DE MOTS-CLES

►

CREATION DE NUAGES

Un blog de travail détaille la vie de notre projet : http://pe.kavoholik.cz/

Dès le début, nous étions décidées à essayer de faire des scripts qui fonctionneraient sur toutes nos langues, et hormis les problèmes non-résolus dans le traitement du birman, nous avons réussi à créer des scripts qui réalisent notre chaîne de traitement pour toutes, à savoir : l'anglais, le français, le norvégien, le tchèque, l'espagnol, l'allemand et le birman.

Certaines étapes ont été plus problèmatiques que d'autres.

Le choix des pages

Nous avons choisi de prendre des pages apparues sur la toile, depuis la date symbolique du début de la transition politique vers la démocratie, le 13 novembre 2010, date de la dernière libération de Aung San Suu Kyi de sa résidence surveillée. Nous avons relevé des pages qui traitent de l'actualité de l'investissement dans l'économie Birmane et/ou de l'état économique du pays.

La recherche s'est faite par les mots-clés concernant le sujet. Très rapidement, le problème d'encodage du birman est apparu, car il fallait chercher le motif dans des encodages birmans différents. Le mot ရင္းႏွီးၿမဳွပ္ႏွံမွုဳ (investissement) dans l'encodage le plus courant (Zawgyi-One) n'apparaîssait pas ! Nous avons donc essayé de voir simplement avec စီးပြားေရး (économie), quitte à ne pas avoir de résultats très parlants à la fin du projet.

Ensuite nous avons sauvegardé les URLs de nos pages, une cinquantaine par langue, dans des fichiers au format texte, un fichier par langue. (Télécharger l'archive du dossier de ces fichiers URL.)

La vérification de l'encodage des pages

En BASH, la détection de l'encodage semble limitée à l'identification du charset declaré dans les en-têtes des pages html, ou bien, avec la commande file, la détection de l'encodage des codes Unicode en machine. Il n'y a pas moyen, semble-t-il, de détecter si les règles Unicode concernant la correspondance glyphe-code ou l'ordre d'écriture des caractères sont respectés. Tous les encodages du birman rencontrés sont effectivement en UTF-8, mais les différents systèmes d'encodage du birman n'encodent pas la même chose en UTF-8 ! Les différences entre ces systèmes sont expliquées sur la page le casse-tête de l'encodage du Birman.
Nous avons conçu deux moyens de contourner ce problème. Le premier était tout simplement de chercher un motif dans un encodage donné, ce qui séléctionnait d'office les textes écrits dans cet encodage. C'est ce que nous avons fait dans nos scripts. Le deuxième était d'identifier les différents blocs unicode encodés. Nous n'avons pas intégré ce procédé dans nos scripts, mais Karolina nous a écrit en Perl un miniprogramme pour tester si notre idée fonctionne.

L'uniformisation de l'encodage des pages par transformation des pages non-UTF-8 en UTF-8

Nous devions uniformiser nos textes en UTF-8, c'est-à-dire en Unicode standard. Le seul moyen que nous avons trouvé de le faire pour le birman est de passer par le logiciel KaNaung. Pour l'utiliser, il a fallu relancer notre script sur les seules urls en birman avec un motif dans un encodage UTF-8 non-conforme aux règles Unicode (Zawgyi, par exemple), puis les copier-coller dans KaNaung afin de les tranformer en Unicode standard (en choisissant Myanmar3).

A ce jour, nous n'avons pas trouvé comment intégrer ce programme dans notre script. Le logiciel KaNaung demande à l'utilisateur les encodages d'entrée et de sortie voulus via une interface graphique. De ce fait, il faudrait donc résoudre le problème d'identification automatique avant de pouvoir intégrer ce logiciel de conversion dans notre script.

La création de nuages de mots avec Wordle

La création de nuages exigent des mots séparés par un espace, alors que la langue birmane ne comporte pas d'espace entre ses mots. (La notion même de "mot" est encore plus floue en birman que dans les langues occidentales.) Nous nous sommes donc penchées sur ce problème. C'est effectivement un problème complexe qui demanderait une approche à multiples facettes, une solution serait de prendre en compte une liste de mots à reconnaître (un dictionnaire), la forme que peut prendre un mot en birman et des considérations syntactiques. Heureusement nous avons trouvé un outil sur le site web du Natural Language Processing Lab à Yangon.

NLPLab Myanmar Word Segmentation

On aurait pu croire qu'on touchait au but, mais cet outil de segmentation ne fonctionne que sur les textes écrits en Zawgyi, c'est-à-dire encodé en UTF-8 mais pas en Unicode standard. Il a donc fallu revenir à l'étape de vérification de l'encodage et choisir un motif en Zawgyi et non pas en Unicode standard. Nous avons donc pu segmenter notre fichier contextes pour le birman. L’outil ne pouvait pas prendre des textes très longs, nous avons donc dû copier coller tous les contextes birmans petit à petit, puis remplacer les underscores que l'outil utilise comme délimiteurs par des espaces. Le fichier (encodage Zawgyi-One) résultant est : myanmar_segmented_with_spaces.txt.

Ce site web n'est pas toujours accessible, mais nous envisageons quand même la possibilité d'écrire un script qui nous permettrait de l'interroger automatiquement et de faciliter ainsi l'étape de la segmentation.

Malheureusement Wordle ne fonctionne pas avec les scripts complexes Unicode tel que le birman, mais nous avons tout de même réussi à faire un petit nuage avec WordSift.

Les résultats de notre projet

Il est apparu évident, à travers notre travail sur ce projet, que l’investissement dans ce pays est désormais un réel sujet d’actualité.

Dans les 7 langues sur lesquelles nous avons travaillé, (allemand, anglais, birman, espagnol, français, tchèque et norvégien), réunir plus de 50 liens par langue traitants du sujet n’a certainement pas été « mission impossible », même en se contraignant à exclure les pdf de plus en plus fréquents sur le web.

En effet, les récents développements politiques ont placé ce pays sur le devant de la scène internationale.

Birmanie ou Myanmar ?

Il apparaît que, par habitude probablement, le nom encore donné à ce pays soit le plus souvent « Birmanie ». Myanmar, lorsqu’il est utilisé, est fréquemment suivi de mentions, telles que « anciennement Birmanie, ou Birmanie … ».

Nos résultats de contextes ont bien démontré que les pages sélectionnées traitaient d’investissement(s), d’investisseur(s), d’investir, voire d’économie, mais toujours dans des environnements mitigés.

En voici quelques exemples :

La Birmanie : nouvel Eldorado ou miroir aux alouettes ?

Birmanie : le nouvel eldorado à risque ... Un nouvel eldorado qui soulève pourtant des questions.

Myanmar - ein Eldorado für Investoren?

Birmania, la nueva “caza del tesoro” en Asia?

Burma the new El Dorado but watch out for business pitfalls.

Un bonze mange une glace à Sagaing