Travail général

Le travail du projet encadré sur "La vie multilingue des mots sur le web" a commencé début octobre 2011. Mon premier choix, le verbe « penser » m’a posé des difficultés pour la recherche des sources électroniques du verbe « penser » en khmer. Comme je l’ai souligné dans la présentation du sujet, le mot biocarburant = ជីវឥន្ធនៈ a pris mon attention, j’ai commencé à travailler sur ce thème.

Il y a quelques difficultés à trouver des Urls en khmer, cela est dû à deux effets importants. D'une part la langue khmère n’est parlée qu’au Cambodge et dans les régions limitrophes de Thaïlande par les Khmers Surin (du Nord) et au Viêtnam par les Khmers Krom. Elle n'est pas une des langues les plus connues comme le français ou l'anglais, donc il y a très peu d’articles écrits en khmer. D'autre part, le « Biocarburant » est un terme très récent et ce domaine n’est pas encore très développé de nos jours au Cambodge. Donc, mes recherches sont donc basées premièrement sur plusieurs sites des journaux cambodgiens, les informations extraites des journaux dans le monde sur le Cambodge, sites d'information de radio RFI, ABC, site des ONG au Cambodge, Cambodian Information Center. Deuxièmement, j’ai utilisé le moteur de recherche Google en khmer en faisant des recherches sur les thèmes de l’environnement, des énergies renouvelables, de l’agriculture, du développement durable, des sciences appliquées à l'environnement... Une petite précision sur le mot « Biocarburant » : en Khmer, c’est un mot composé de « Bio + Carburant », il n’y a pas d’occurrences de cas « Singulier ou pluriel ».

Résultats du contextes

Contextes Français

  • Je n’ai pas eu de problème au niveau de l’encodage par contre j'ai 4 textes affichent en (dump initial en iso-8859-1) et en (dump-utf-8) mais ils n'affichent pas dans la colonne de CONTEXTES

Contextes Khmer

  • Je n’ai pas eu de problème au niveau de l’encodage aussi mais il y avait deux consonnes "ក​ et ផ​​" sont disparu dans le contexte global, je n’ai pas trouvé la solution. Par contre elles apparaissaient dans le dump initial et dans le dump utf-8

Remarque sur le script

J’ai adapté certaines commandes et expressions pour qu'elles puissent fonctionner sur mon ordinateur.

  • == par =
  • let "nbdump+=1" par nbdump=`expr $nbdump + 1`
  • [[ $contenupageaspiree != " " ]] par [ "$contenupageaspiree" != " " ]
  • concernant le motif "(\bbiocarburants?\b|ជីវឥន្ធនៈ)" : le mot khmer jai mis hors de l'expression régulière et "sans espace"