Le projet



L’objectif du projet était de programmer :

  • en bash et en python
  • une chaîne de traitement de textes récupérés sur internet autour d’un motif choisi et de constituer un corpus pouvant servir lors d’analyses linguistiques.
  • De présenter les résultats de ces différents traitements par le biais de tableaux html.

En résumé

Quelques informations et liens utiles

1 - Le projet

L’objectif du projet est de programmer en bash et en python une chaîne de traitement de textes récupérés sur internet autour d’un motif choisi et de constituer un corpus pouvant servir lors d’analyses linguistiques. Les résultats de ces différents traitements sont présentés par le biais d’un tableau html.

4 - Répartition du travail

Bien que communiquant tout au long du travail, chacun des membres du binôme s'est dans un premier temps concentré sur un langage de programmation, et une langue différente : bash (+ japonais) pour Sandy, python (+ anglais et français) pour Ousseynou.

Ensuite, il y a eu une mise en commun des résultats (voir tableau), ainsi qu'une analyse commune.

2 - Le sujet

Nous avons choisi de travailler sur le traitement du viol dans la presse en ligne, en se concentrant surtout sur les voix (actives ou passives).

Pour plus de détails sur le pourquoi du choix de cette thématique, cliquez sur :
sujet_1 | sujet_2

5 - Résultats (tableaux urls)

Nos programmes respectifs ont permis de générer des tableaux. C'est le coeur de notre travail.

Vous pouvez les voir en cliquant sur lien_vers_tableaux.

3 - Suivi (blog)

Tout au long du travail, nous avons consigné nos réfléxions, difficultés, choix, avancées dans un blog consacré.

Vous pouvez y accéder en cliquant sur lien_blog.

6 - Programmes (scripts)

Enfin, si vous le souhaitez, vous pouvez télécharger les scripts (sans données).
version_bash | version_python

Nuages de mots

Cliquez pour voir l'image en pleine page.

Analyse des résultats

NB1 : Notre analyse n'est surtout pas à généraliser au niveau des langues, car notre corpus est extrêmement petit (environ 150 textes).

Cependant, le temps d'un projet, nous allons faire comme si nous pouvions nous le permettre.

NB2 : Au lieu de travailler sur le corpus en entier, nous nous sommes concentrés sur les contextes, en prenant 2 mots à gauche du motif et un mot après. C'était suffisant pour notre problématique.

Que remarquons-nous ?

Peut-être influencés par tout ce qui dit, nous nous atendions à ce que le viol soit plus utilisé à la voix passive, pointant le doigt vers la victime plutôt que le bourreau.

Surprise, en français ce n'est pas le cas. En effet, la présence de l'auxiliaire "avoir" est 3 fois supérieure à celle de l'auxiliaire "être".

Par contre en anglais et en japonais, c'est bien la forme passive qui l'emporte.

En anglais, nous avons l'auxiliaire "to be" comme étant le deuxième lemme le plus utilisé de tout le corpus, après le verbe "rape".

Pour le japonais, la marque du passif "さ" est autant utilisée que le verbe "レイプ". La forme passive est utilisée environ 30% plus que la forme active "し".

D'autres éléments ont aussi attiré notre attention :

- Dans le corpus anglais, nous avons quasiment la même fréquence des couples (boy+man) que (girl+woman).

Pouvons-nous en déduire que le viol concerne aussi bien les hommes que les femmes dans ce corpus ?

À contrario, dans le corpus français, ce n'est pas tant le sexe de la personne qui est mis en avant, mais plutôt l'adjectif 'jeune'.

En japonais, l'homme semble presque absent du corpus. La femme est violée/agressée mais l'agent de la tournure passive est presque toujours éludé.

Si l'on s'intéresse au nuage de mots, on peut aussi constater que les noms de pays sont relativement fréquents (パキスタン - Pakistan / インド - Inde / ベトナム - Vietnam).

Cela s'explique par le fait qu'au moment de la récolte d'urls, la presse parlait surtout de deux affaires en particulier qui se déroulaient en Inde et au Pakistan. Nous n'avons trouvé que très peu d'articles concernant des affaires se passant au Japon.

Il est toujours délicat de tirer des conclusions lorsque l'on a affaire à ce genre de sujets sensibles, surtout lorsque l'on travaille sur aussi peu de données.

Nous avions isolé la forme passive car elle nous semblait assez explicite et facilement repérable mais il est certain que se concentrer sur ce seule phénomène linguistique n'est pas suffisant si l'on s'intéresse réellement à la façon dont les médias parlent des violences faites aux femmes.

Pour aller plus loin, si jamais le sujet vous intéresse, nous vous invitons à consulter ces deux publications, disponibles sur ici et ici.

Mot(s) de la fin

Un grand merci à vous chers professeurs.

Entre la bonne humeur de Mr Daube, et les conseils avisés de Mr Fleury, je me suis bien amusé, et ai appris.

Mais surtout, le dernier mot ne pourrait être que pour toi Sandy ! Ce fut un plaisir de travailler avec toi, en espérant que l'expérience sera renouvelée.

Up to the next !

OG

Tout d'abord, merci à vous, M. Daube et M. Fleury, d'avoir été aussi sympathiques et pédagogues tout le long du semestre !

Merci à toi, Ousseynou, d'avoir été aussi motivé et motivant mais surtout, merci pour ton calme et ta patience incroyables (et tu en as eu besoin avec moi, clairement).

Vivement le prochain projet, en espérant que la suite se passe aussi bien. :)

SD