La BCE pendant la crise financière

Pour mieux comprendre les étapes du projet, il est recommandable de regarder d'abord les outils utilisés.

construction du corpus

Le corpus est constitué en principal de pages internet (environ 150) de journaux ou de blogs économiques publiées pendant les quatre dernières années en anglais, en français et en roumain. Elles ont pour sujet le thème de notre projet.

organisation de l'environnement de travail

Les premières lignes du script incorporent les commandes spécifiques pour la création des répertoires et sous-répertoires pour la sauvegarde de l'information traitée lors des étapes suivantes.

création d'un tableau en langage html

A l'issue de chaque étape, les résultats obtenus seront enregistrés dans une colonne d'un tableau incorporé dans une page html.

aspiration des pages

cURL est un crawler qui cherche des URLs et les stocke en format html sur notre disque local. Voici les lignes de code spécifques :

récupération du contenu textuel

Le contenu textuel des URLs est ensuite extrait grâce au navigateur en ligne de commande Lynx.

conversion de l'encodage

Pour assurer la reconnaissance des caractères spéciaux utilisés dans les pages dumpées, l'utilisation exclusive de l'encodage UTF-8 dans toutes les pages s'impose.

extraction des contextes

L'opération est réalisée par un petit programme en Perl qu'on va appeler depuis notre script. Les résultats sont à la fois incorporés dans des fichiers html (chaque occurrence du motif et son environnement) et concaténés dans des fichiers spécifiques pour chaque langue. Dans le tableau (voir résultats) va être affiché également le nombre d'occurrences des éléments du motif.