Ceci est le site réalisé par Arthur Lapraye et Thibault Bejerano dans le cadre du cours du Master Plurital "Programmation et Projet Encadré" pour le premier semestre de l'année 2013/2014.
Nous avons choisi de nous intéresser aux occurrences du mot "politicien" et de ses équivalents en anglais, norvégien et finnois. Pour ce faire, nous avons établi un corpus, matérialisé par une liste d'URLs triées par langues. Ce corpus a été traité par un script bash qui a effectué les opérations suivantes :
- Téléchargement des pages afin d'en avoir une copie locale
- Suppression des balises HTML et autres éléments de code au moyen de navigateurs textuels
- Extraction de chaque occurrence du mot recherché et de son contexte
- Création pour chaque page d'une liste ("index") contenant l'ensemble des mots employés avec leur nombre d'apparition
- Index statistiques globaux pour chaque langue
Ensuite, nous avons établi, au moyen du Trameur (logiciel de Lexicométrie), des arbres de cooccurrences des différents mot étudiés.