Script Tableaux

Phase 1: traitement

La première partie du travail qui nous a été demandé et qui, par ailleurs, est celle qui nous a pris le plus de temps, consiste en l'écriture d'un script en bash (interpréteur en lignes de commande qui fournit une interface utilisateur au système d'exploitation) qui va nous permettre d'extraire des données web et de leur appliquer des traitements (aspiration, nettoyage, conversion) afin de les rendre, par la suite, exploitables.

Récupération de données


Il a donc tout d'abord fallu trouver des données web sur lesquelles travailler. Pour notre projet, il s'agissait de récupérer 50 URLs par langue d'articles entrant dans notre thématique, c'est-à-dire traitant des dernières élections présidentielles ou de celles de 2012 de France, des États-Unis, du Mexique, du Venezuela ou de la Corée du Sud et dans lesquelles on trouve au moins une occurrence du mot "rêve".

Où chercher? A plusieurs mois voire même un an des élections présidentielles, il n'était pas si simple de trouver des articles qui en parlent, et on a très vite fait le tour des sites de médias que l'on connaît. Pour aller plus loin et atteindre le quota d'URLs que l'on s'était fixé, nous avons donc fait appel aux moteurs de recherche, du traditionnel Google multilingue (!), aux géants coréens naver et daum.

Si la recherche d'information sur internet est une pratique quotidienne pour des millions d'internautes, ce n'est pas pour autant chose aisée, et la précision de notre thématique en a fait... un défi!

Mots-clés?


Première ruse pour récupérer un maximum de données pertinentes: le choix des mots-clés. On pourrait partir d'une requête simple comme "rêve élections présidentielles [pays]" traduites dans les quatre langues de travail. Mais voilà, chaque langue et chaque pays a ses spécificités. Tout d'abord, même si les cinq pays cités ci-dessus voient 2012 comme l'horizon de leurs prochaines élections présidentielles, la durée du mandat présidentiel diffère, ce qui nous a obligé à bien nous renseigner et utiliser comme date mot-clé "2006" pour le Mexique et le Venezuela, "2007" pour la France et la Corée du Sud, et "2008" pour les États-Unis.

Autre difficulté linguistique, celle de trouver les bons synonymes et la bonne terminologie. Eh oui, quand aucune de ces langues n'est pour nous une langue maternelle (à part le français bien entendu), les ennuis commencent! Et nous voici équipées de ou 프랑스¹ partant à la recherche des front-runners² de la presidential race³ à l'occasion des 대선!

Tri des données récupérées


Afin de diversifier nos données, nous voulions à l'origine travailler à la fois sur les sites de journaux et sur les blogs/sites des personnalités ou des partis politiques, mais nous nous sommes très vite rendu compte qu'en l'absence de fonction "Recherche" efficace sur les blogs, il nous était impossible de récupérer rapidement les billets qui nous intéressaient. Par conséquent, nous nous sommes uniquement cantonnées aux sites des journaux qui proposaient une fonction "Recherche" suffisamment puissante, efficace et pratique (à noter l'utilité des options avancées comme le tri par périodes du New York Times!).

Cependant, l'utilisation de cette fonction, aussi efficace soit-elle, n'est pas suffisante: il était nécessaire de faire attention à ne pas récupérer plusieurs fois le même article cité sur plusieurs sites ou bien plusieurs articles qui ne faisaient que citer les discours de personnalités politiques sans vraiment apporter de commentaires, ainsi que de refaire un tri entre les articles pertinents et ceux qui ne portaient pas réellement sur notre thématique... Et tout ceci représente des heures (et des heures)+ de lecture (et de wikipédia).

Une fois notre base de données constituée, rendez-vous à la prochaine étape: les traitements rassemblés sous forme de script, et la présentation des résultats de ces traitements sous forme de tableaux. Enfin...

/!\ Remarque: si vu de cette manière ce projet semble linéaire, ce n'est en réalité absolument pas le cas: on ne compte plus les innombrables allers-retours entre la récupération des données, la partie "traitement" et même la partie "nuages", dus à la remarque tardive de petites erreurs faites auparavant, à des solutions auxquelles nous n'avions pas pensé avant, à des incompatibilités imprévues ou bien... à des articles qui déménagent!