Partie du corpus en mandarin

Notre thématique est 'la protection environnementale'. En mandarin, on a saisi le groupe des mots clés comme '环保' et '环境保护' qui désignent tous les deux 'la protection environnementale' dans le site Google et Baidu. Baidu est un navigateur utilisé beaucoup en Chine. Notre première étape est la décision du champ traité : comparaison du terme clé 'la protection environnementale' utilisé dans quatre langues. Et puis, chacun récupère 50 urls de sa langue.

Après la récupération des données, une grande partie du projet est la construction de notre tableau d'urls contenant le lien d'url, le code http, l'encodage, la page aspirée d'url, le contexte du mot clé, le bitexte et la fréquence de motif dans chaque url.

À l'issue de la construction du tableau, on es arrivé au deuxième phase du projet. Nous commençons à préparer notre corpus pour l'analyse textométrique avec l'outil iTrameur. Il nous faudrait de concaténer touts les textes en ajoutant les balises afin de les bien structurer. En fin, on obtient notre gros fichier qui peut s'utiliser comme la base de corpus dans iTrameur.

Le lien pour aller à la page du résultat de l'analyse de données par iTrameur: Clique Here