Titre

Présentation Démarche Script Tableaux Nuages des mots Analyse

Script

Nous avons travaillé sur quatre langues, environ 300 URLs. Avec notre script de quelques 400 lignes de code, nous avons réussi à traiter les données textuelles multilingues d'une manière efficace. En fin de projet, nous constatons encore que les données textuelles captées sur le web sont à 75% "propre" même si nous avons énormément travaillé à améliorer ce script. Sur certaines pages web, il reste du bruit généré par "l'environnement publicitaire" hors contexte. Dans le cas de données massives (big data), il faut s'assurer que ces données hors contextes captées ne biaisent pas nos résultats d'analyse.

Retour en haut

Projet encadré

Script