Evaluation du projet
Ce projet m'a demandé énormément de travail et d'investissement en temps, en patience et en énergie. Etant donné que je me suis retrouvée à travailler toute seule, tout était plus difficile et plus long. Durant tout le semestre j'ai tenu à jour le blog concernant l'avancée du projet et je me rends compte de la charge de travail que cela représente. En fin de phase 1, j'avais pris beaucoup de retard à cause des nombreux problèmes que j'ai rencontré liés aux scripts. Cependant, j'ai réussi à rattraper ce retard, et j'estime que je me suis plutôt pas mal débrouillée. Mon seul regret c'est de n'avoir pas pu compter sur ma partenaire et qu'au final je me sois retrouvée à faire un traitement linguistique unilingue.
Au final, je suis tout de même satisfaite du chemin parcouru, car j'ai beaucoup appris. Travailler sur un projet, seule, et le mener jusqu'au bout m'a obligé à prendre les choses en main : écrire les scripts, chercher pourquoi ça ne fonctionne pas, trouver une solution aux problèmes,etc. Un grand merci aux professeurs très patients qui m'ont été d'une grande aide.
Les difficultés rencontrées
Le système d'exploitation
La première difficulté que j'ai rencontré et qui m'a poursuivi tout le semestre, c'est le système d'exploitation.Le fait de devoir travailler sur Ubuntu a nécessité l'installation d'une machine virtuelle.Cette solution n'était pas la meilleure car ma machine n'avait pas suffisemment de RAM. Cela rendait le travail assez pénible à cause de la lenteur de la machine virtuelle.
L'écriture du script
La liste des difficultés liées au script est tellement longue que je vous laisse apprécier ici Un problème récurrent concernant l'écriture des chemins relatifs et absolus m'a fait perdre beaucoup de temps.
Certaines commandes étaient aussi très capricieuses et ne s'exécutaient pas toujours correctement. Ce fut le cas notamment pour "curl" et "file". La commande "iconv", ne fonctionnait pas toujours. Celle-ci ne reconnaissait pas toujours l'encodage et certaines pages ne pouvaient pas être converties en utf-8. De plus, bien que le retour curl affiche 0, certaines pages étaient mal ou n'étaient pas aspirées, ce qui qu'au final il ne me restait plus beaucoup d'url valides à traiter.
L'encodage des caractères
Le problème de l'encodage a commencé à se poser lorsqu'il a fallu utiliser le minigrep. En français, aucun problème. En khmer en revanche, le motif n'était pas bien encodé et, bien que le minigrep fonctionnait et que j'avais des fichiers contextes crées, en réalité, nombres de ces fichiers étaient vides. Ce problème a été en partie résolu. En effet, lorsque le programme était chargé de concaténer les fichiers dump (utilisés pour les nuages), le fichier global concaténé était complètement illisible et ce même si chaque fichier individuelle était lisible et encodé en utf-8. Je n'ai pas trouvé de solution à ce problème et c'est la raison pour laquelle (autre le fait que je ne parle pas la langue) je n'ai pas pu effectuer de traitement linguistique sur le corpus en khmer.
Le trameur
Malheureusement, bien qu'ayant suivi un cours express sur l'utilisation du logiciel " le trameur", je n'ai pas pu m'en servir pour traiter mon corpus, tout simplement parce que je ne suis pas parvenu à l'installer sur ma machine.Ce qui est tout à fait dommage, car ce logiciel va très loin dans la représentation et l'analyse de co-occurrences, de fréquence et de schématisation textométriques des données textuelles
L'élaboration du site web
Cette partie du projet, a été minimisé durant le semestre, mais il se trouve que construire un site demande énormément de temps et de travail. On aurait dû commencer à construire le site au moins à la mi-semestre car à la fin du semestre, usée, épuisée, je me suis sentie lâchée dans la nature alors que c'est en quelque sorte la cerise sur le gâteau.