Choix du sujet

Avant de commencer à programmer, nous avons hésité entre différents sujets puis nous nous sommes finalement mis d'accord sur le thème du féminisme. Sujet toujours d'actualité qui suscite de vives opinions aussi bien des partisans que des opposants. Notre réflexion s'est basée sur différentes définitions. En voici quelques unes:

Féminisme d'après le dictionnaire Larousse

Mouvement militant pour l'amélioration et l'extension du rôle et des droits des femmes dans la société.

Attitude de quelqu'un qui vise à étendre ce rôle et ces droits des femmes : Un féminisme actif.

Feminism d'après Merriam-Webster

 the theory of the political, economic, and social equality of the sexes

organized activity on behalf of women's rights and interests

Feminismo d'après d'après le DRAE (Diccionario de la Real Academia Española)

Doctrina social favorable a la mujer, a quien concede capacidad y derechos reservados antes a los hombres

Movimiento que exige para las mujeres iguales derechos que para los hombres.

Recherche d'urls par langue

Il a ensuite fallu constituer un corpus c'est-à-dire: 50 urls par langue. Il fallait veiller à ce que les urls soient toujours accessibles tout au long du projet.

Quant au choix de langues, initialement, nous étions 3 et puisque la 3e étudiante était d'origine chinoise nous avions un corpus chinois mais dû à son départ dans un autre groupe; nous l'avions remplacé par un corpus espagnol. Les deux autres langues choisies sont le français et l'anglais. La récolte des urls pour l'anglais et le français a été assez simple puisque de nombreuses ressources sont disponibles sur la toile. Quant à l'espagnol, cela s'est révélé un peu plus difficile dû à un nombre moins important de sources.

Blog


Pour suivre l'avancée de notre travail, nous avons créé un blog dont l'adresse est la suivante: http://lessaimrebel.wordpress.com/


Le projet

Le projet se divise en deux étapes principales.

I.La rédaction des scripts qui a permis progressivement:

-la création d'un tableau de liens en html

- l'ajout des liens externes au tableau de liens 

- une nouvelle colonnes avec les pages aspirées

- retour curl

- l'ajout de la colonne dump et traitement de l'encodage si ce n'est pas de l'utf-8

- l'ajout de la colonne contextes au format .txt et au format .html et d'une colonne avec le nombre d'occurrences


II. La création de nuages


Grâce aux fichiers dump qui représente le contenu textuel des pages aspirées, nous avons pu créer  des nuages avec les applications Wordle et Word It Out.

Bilan

Ce projet s'est révélée assez difficile car la programmation était une nouveauté pour nous. Il a fallu s'adapter à linux, un système d'exploitation qui nous était inconnu ainsi qu'apprendre les différentes commandes afin de pouvoir écrire le script. Apprendre à utiliser des expressions régulières a aussi été difficile à acquérir. Globalement, cela nous a permis d'élargir mes connaissances en informatique et nous rendre compte que cela pouvait être liée à la linguistique bien que ce soit deux domaines très différents.