description
Le projet 'La vie multilingue des mots sur le web' a eu pour but la construction d’une chaîne de traitement textuel semi-automatique à appliquer sur un corpus de données textuelles multilingues autour d'un thème unique.
La BCE pendant la crise financière est le thème traité dans le cadre de ce projet.
A partir d'un corpus composé de pages internet en roumain, en anglais et en français, le travail effectif a comporté l'écriture d'un script BASH Shell dont l'exécution a eu comme résultat :
- organisation de l'environnement de travail,
- l'aspiration des pages en format HTML,
- la conversion de leur contenu en format TXT,
- la conversion de leur encodage en UTF-8,
- l'extraction des contextes et
- la création des arbres d'analyse textométrique.
objectif d'apprentissage
Ce projet a assuré les bases d'apprentissage de la programmation en Unix Shell et en Perl, de l'utilisation du langage HTML ou de quelques outils textométriques, tels Le Trameur.