Le corpus est constitué en principal de pages internet (environ 150) de journaux ou de blogs économiques publiées pendant les quatre dernières années en anglais, en français et en roumain. Elles ont pour sujet le thème de notre projet.
Les premières lignes du script incorporent les commandes spécifiques
pour la création des répertoires et sous-répertoires pour la sauvegarde
de l'information traitée lors des étapes suivantes.
A l'issue de chaque étape, les résultats obtenus seront enregistrés dans une colonne d'un tableau incorporé dans une page html.
cURL est un crawler qui cherche des URLs et les stocke en format html sur notre disque local. Voici les lignes de code spécifques :
Le contenu textuel des URLs est ensuite extrait grâce au navigateur en ligne de commande Lynx.
Pour assurer la reconnaissance des caractères spéciaux utilisés dans
les pages dumpées, l'utilisation exclusive de l'encodage UTF-8 dans
toutes les pages s'impose.
Pour l'extraction des contextes, un motif de recherche est incorporé dans le script : motif="ECB|European Central Bank|Banque centrale européenne|BCE|Banca Centrală Europeană|Băncii Centrale Europene|crisis|crise|criza|crizei|criză".
L'opération est réalisée par un petit programme en Perl qu'on va appeler depuis notre script. Les résultats sont à la fois incorporés dans des fichiers html (chaque occurrence du motif et son environnement) et concaténés dans des fichiers spécifiques pour chaque langue. Dans le tableau (voir résultats) va être affiché également le nombre d'occurrences des éléments du motif.