La Présentation

Notre groupe a choisi le contrôle et la surveillance de l'Internet comme sujet. La raison de ce choix est que nous venons de pays ( la Chine et l'Iran) où le contrôle et la surveillance de l'Internet par le gouvernement sont très stricts. C'est un sujet très actuel, et tout le monde ne partage pas la même opinion. Nous avions dans l'idée de mener ce projet afin d'acquérir des connaissances plus profondes et plus objectives sur ce sujet. Notre groupe est constitué de deux filles étrangères : Chinoise et Iranienne. La diversité linguistique nous permet de mener ce projet en quatre langues différentes : anglais, chinois, français et persan. L'objectif de notre projet est de récupérer toutes les informations qui nous paraissent intéressantes et de les analyser. Pour cela, nous devons construire un programme qui, tout d'abord enregistre les pages Internet sous la machine locale puis extrait le contenu textuel. Après tout cela, le programme va chercher les motifs dans les textes et récupérer ce qui nous intéresse. D'abord, nous faisons l'aspiration des pages Internet grâce à la commande curl, on obtient un retour qui nous permet de vérifier si cette aspiration a bien fonctionné. Si tout va bien, on récupère tous les contenus textuels avec l'outil lynx. Dans ce cas là, on teste l'encodage du dump pour voir si c'est UTF-8. Si oui, on passe à l'étape suivante. Sinon, on cherche dans la liste de iconv l'encodage testé. S'il y existe, on le convertit en UTF-8. S'il n'existe pas, le programme s'arrête. Ensuite, on revient à l'étape antérieure et on cherche les motifs dans les textes dumping en UTF-8 puis on récupère tous les contextes correspondants. La dernière chose à faire est de convertir tous les contextes textuels au format html avec l'outil minigrep. (Petite remarque : ne pas oublier de compter le nombre d'occurrences des motifs). Ensuite, grâce au site Wordle (http://www.wordle.net/), on peut faire des nuages de mots, qui rendent notre projet plus visualisable.

Example pic