Accueil

Objectif

Faire une analyse linguistique du mots “avortements” à l’aide d’un corpus trilingue et de méthodes et outils informatiques.

Étpae

Choisir un terme à traiter

Extraire des URLs dans lesquels on trouve le mot “avortement”

Créer un blog pour documenter notre méthode de travail

Créer un script bash

Créer des nuages de mots pour visualiser nos résultats

Utiliser le Trameur pour faire une analyse textométrique des données récoltées.

Faire un site pour présenter notre travail à l’aide de html

À propos

Nous sommes trois étudiantes en Master traitement automatique du langage à l’inalco. Nous créons ce blog en vue de faire un projet pour le cours de « programmation et projet encadré ».

Nous allons travailler sur trois langues différentes : le français, l’arabe, et le mandarin. Afin de pouvoir observer quelles sont les différentes conceptions sociales d’un pays un autre du mot « avortement ».

Ce projet et pour nous l’opportunité de développer nos connaissances en linguistiques ainsi que de découvrir le monde de l’informatique car notre recherche va être automatisé.

Script

Notre script a été écrit en bash. Cependant, malgré la variété des fonctions existantes en bash, nous avons eu le besoins de solliciter d’autres langages comme par exemple Perl,Html ou encore Java pour segmenter le chinois et l’Arabe.

A quoi sert le script :

1. Lire depuis un fichier des listes d'URL

2. Aspirer des pages associées aux URL grâce à la commande 'curl'

3. Trouver l'encodage des pages aspirer

4. Si l’encodage n’est pas 200 → connexion non possible

5. Si le code retour est 200 → on poursuit le traitement

6. Si l'encodage est UTF-8 → on poursuit le traitement

7. Si l’encodage n’est pas UTF-8 → vérifier s’il est répertorié par iconv.

8. Si l’encodage est répertorié par iconv on le convertit en UTF-8

9. S’il n’est pas répertorié par iconv → on va chercher l’encodage dans les pages aspirés à l’aide de l'expressions régulières ‘egrep’.

10. Chercher le contexte de notre terme dans les DUMPS

11. Utiliser le programme 'minigrep' pour rechercher les contextes

12. Mettre le tout dans un tableau

Cliquer ici pour voir notre sctipt

Tableau

Organisations et contenue des tableaux:

n° - Un compteur pour tous les URLs dans le tableau.

URL - L'URL avec un lien vers le site.

Page Aspirée

Retour Curl - Le '0' veut dire que tout c’est bien passer.

Encodage - L'encodage de la page.

Dump (non-utf8) - Un dump du texte de la page dans son encodage original si ce n'est pas utf-8.

Dump (uft8) - Un dump du texte en utf-8.

Contexte - Le contexte (les mots qui viennent avant et après) de notre terme dans le dump du texte.

Cliquer ici pour voir notre tableau

Nuage de mots

Nous avons créé des nuages de mots avec le programme nuagedemots.co pour visualiser nos résultats. Ce programme prend un texte en entrée et fait des regroupe tous les mots utilisées et met en valeur les plus utilisés.

Nuage de mot pour le chinois :

Nuage de mot pour l'arabe :

Nuage de mots pour le français :

On remarque une prédominance du mot clé dans les trois langues. L’environnement linguistique n’est a priori pas négatif.Il y’a deux champs lexicaux très présent ceux du “droit” et de la “santé”. Nous allons désormais faire une analyse plus développée à l’aide d’outils textométriques.

Analyse

Le Trameur est un outil d'analyse textométrique que nous avons utilisé pour interpréter les résultats que notre script a généré.

Analyse du Français

Selon les chiffres que itrameur nous montre, ‘avortement’, ‘grossesse’ et ‘femme’ sont les mots les plus fréquents dans notre source française.

D’après le Couleur Neuod-Cooc, on peut classer les mots les plus souvent présents avec ‘avortement’ en deux classements: le classement de santé et de droit. Les mots de coté de santé, tel que, ‘médicamental’, ‘instruments’, ‘chirurgical’. Et les mots qui sont dans le domaine de droit, par exemple: ‘illégal’, ‘électif’, ‘interdire’, ‘anti’. On peut dire, dans la société française quand on discute le sujet ‘avortement’, on concerne plus son niveau de sécurité et sa légitimité.

En regardant les contextes, nous pouvons constater que le mot ‘femme’ apparaît souvent dans certaines statistiques. C’est pourquoi le chiffre ‘1000’ est un coocurrent fréquent dans ce cas. Et l’expression ‘femme en âge procréer’ est présentée comme une expression figée dans les texte, alors nous pouvons trouver ‘âge’ dans la liste de coocurrence de mot ‘femme’.

Le mot ‘grossesse’ est souvent présent avec ‘interruption’ et ‘volontaire’, le mot ‘IGV’ ressort souvent aussi. Et l’autre coocurrence qui est intéressant est ‘semaine’. D’après son contexte, nous voyons que les textes discutent souvent du délais d’avortement.Il faut réaliser l’avortement avant les 12 semaines d’aménorrhée..

Analyse de l'Arabe

Avant de commencer l’analyse il me semble important de faire un petits résumé sur la situation des pays arabes concernant l’avortement. Dans la plupart des pays arabe l'avortement est une pratique qui est interdit par la loi. Elle n’est autorisée que si la vie de la mère est en danger ou si il y’a viol.

l’équivalent du mot arabe ‘avortement’ est ‘الإجهاض’.

Le nuage de mots nous à donnait un première aperçue sur les contextes d’emploi "الإجهاض".

On remarque que les mots qui sont mise en valeurs par la typographie sont :

"حمل","grossesse"

"امرأة","femme"

"اغتصاب","viol"

"القانون","loi"

"حرية","liberté"

"عدالة","justice"

"الصحة","santé"

Pour avoir une vision plus concrète sur le champ, sémantique lié au mot "avortement", nous allons chercher ces coocurrences, avec l’aide d’iTrameur. Les analyses effectuées sur ce logiciel de textométrie vont nous permettre d’avoir un regard plus poussé sur les contextes et les cooccurrences du mot "الإجهاض".

Graphe associé:

On s’est rendu compte que les occurrences du mot "الإجهاض” sont fortement utiliser avec des termes:

Législatifs: “ تقنين” “Légalisation”, “اباحة” “autorisation”, “اجراء” “procédure”: “القسري” “Forcé” , “ الاكراه” “compulsion”,“تجريم” “condamnation”,“محاربة” “combattre”

En regardant ces résultats de plus près on remarque que le coccurrence le plus proche de “الإجهاض” est “السري” “le secret” .

On va maintenant regarder le contexte afin de pouvoir en tirer des conclusions:

Toutes ces concurrences semble tout à fait cohérente en effet comme on le sait l’avortement est une pratique qui est interdite c’est pour cette raisons que l’on retrouve le mot secret en tant que premier coocurences d’avortements, suivie de près de mots venant du monde juridique. En effet la restriction de l’avortement engendre cette pratique de façon secrète.

Il y’a le mot “نقاش” “discussion”, et “موضوع” “sujet” qui apparaissent aussi. En effet ces dernières années il y’a de plus en plus de discussion sur ce sujet grâce aux associations et aux femmes qui essaient de faire porter leur voix.

On peut dire que les mots mis en avant dans le nuage de mots et les cooccurrences ressortis par iTrameur ne sont pas les mêmes néanmoins ce sont des mots clés qui se rejoignent.

Analyse du chinois

On va analyser le mot-clé: avortement dans notre sujet ainsi que ses deux cooccurences: femme(s) et grossesse.

Tout d’abord sur le mot ‘femme’, il n’est pas parlé moins fréquents par rapport l’autres mot-clé ‘avortement’. Et les concordance de mot ‘femme’, on ne trouve pas qu’il y a des pointes intéressants.

En suite, le mot ‘grossesse’ (‘怀孕’ ou ‘妊娠’) le moins fréquent parmi les trois mots.

Selon la graphie de coocurrences de ‘grossesse’, on a discuté les raisons de grossesse et lesquelles provoqueraient l’avortement’. Les raisons, tel que, ‘violer’(‘强暴’), ‘l’inceste’(‘乱伦’), ‘l’accident’(‘意外’).

Enfin, on va aborder le sujet ‘avortement’. On a deux expressions ‘堕胎’ et ‘流产’ qui se rapportent au même sujet ‘avortement’.

Comme les images nous montrent, quand on parle de l’avortement, il y a des autres sujets sont lié. Par exemple, ‘hôpital’, ‘opération’, ‘médicaments’, la légalité etc. Dans notre société, l’avortement n’est pas un sujet qu’on peut le discuter sans avec les autres.

Dans le nuage de mot, certains mots sont remarquables. Par exemple, ‘France’, ‘Les Etats-Unis’ etc. Selon le contexte, on a trouvé parce que en mai , l’alabama vote la loi la plus répressive des Etats-Unis sur l’avortement. Alors, nombreux de journaux l’ont discuté. Le mot ‘IVG’ a été trouvé dans les sites chinois. On peut dire que les 50 textes ont plutôt parlé de ce sujet ‘avortement’ du monde que lequel en chine.

Comparaison

On observant ces trois graphiques de fréquence absolue, du mot avortement on remarque une différence assez importante entre les corpus. Dans le corpus français on a une fréquence très élevées contrairement au corpus chinois et arabe. Néanmoins dans le corpus arabe on retrouve un peu plus de fréquence élevée que dans le chinois. On peut donc dire que l'avortement c’est un sujet qui préoccupe la société Française et Marocaine, et qu’il est mis au coeur des débats.

Au contraire en chine on remarque de faible fréquence on peut donc dire que c’est un sujet qui n’est pas souvent évoqué au sein de la société.

Conclusions

Au debut de notre projet nous avons formulé différentes hypothèses.Il est difficile de s’appuyer sur ce corpus afin de pouvoir déceler les connotations positives ou négatives. Donc nous ne pouvons ni infirmer ni confirmer nos hypothèses.En essayant d’évaluer notre travail on s’est rendu compte que le corpus n’est peut-être pas assez ciblé. Pour pouvoir répondre à nos hypothèses de départ.

Par conséquent nous avons commencé notre projet dans l’espoir de découvrir des différences de visions à propos de l’avortement, on s’est rendue compte que chaque société avait sa propre manière de voir ce sujet. C’est un sujet qui reste tabou, on s’est rendue compte qu’au sein d’une même société les avis divergents.Il faut bien évidemment relativiser ces résultats car en effet ce n’est pas un corpus de très grande taille. Néanmoins grâce à ce projet nous avons pu avoir une petite idée sur la méthodologie qu’il fallait adopter afin de pouvoir extraire des informations grâce aux outils informatiques.

Bien que les corpus ne nous permet pas de déceler d’importantes différences d’idée, nous avons remarqué des nuances. Nous pouvons dire que les trois pays tolèrent l’avortement dans des circonstances différentes. Dans la majorité des pays Arabes, c’est une pratique qui reste interdite. Au contraire, en Chine, la discussion est ouverte mais plutôt en tant que sujet étranger.Les points évoqué sont les risques sur la santé ainsi que la procréation. Dans la société française,l’avortement n’est pas une pratique illégale, mais tout de même il faut la réaliser avant le délais légal maximal.

Elements

Text

This is bold and this is strong. This is italic and this is emphasized. This is superscript text and this is subscript text. This is underlined and this is code: for (;;) { ... }. Finally, this is a link.


Heading Level 2

Heading Level 3

Heading Level 4

Heading Level 5
Heading Level 6

Blockquote

Fringilla nisl. Donec accumsan interdum nisi, quis tincidunt felis sagittis eget tempus euismod. Vestibulum ante ipsum primis in faucibus vestibulum. Blandit adipiscing eu felis iaculis volutpat ac adipiscing accumsan faucibus. Vestibulum ante ipsum primis in faucibus lorem ipsum dolor sit amet nullam adipiscing eu felis.

Preformatted

i = 0;

while (!deck.isInOrder()) {
    print 'Iteration ' + i;
    deck.shuffle();
    i++;
}

print 'It took ' + i + ' iterations to sort the deck.';

Lists

Unordered

  • Dolor pulvinar etiam.
  • Sagittis adipiscing.
  • Felis enim feugiat.

Alternate

  • Dolor pulvinar etiam.
  • Sagittis adipiscing.
  • Felis enim feugiat.

Ordered

  1. Dolor pulvinar etiam.
  2. Etiam vel felis viverra.
  3. Felis enim feugiat.
  4. Dolor pulvinar etiam.
  5. Etiam vel felis lorem.
  6. Felis enim et feugiat.

Icons

Actions

Table

Default

Name Description Price
Item One Ante turpis integer aliquet porttitor. 29.99
Item Two Vis ac commodo adipiscing arcu aliquet. 19.99
Item Three Morbi faucibus arcu accumsan lorem. 29.99
Item Four Vitae integer tempus condimentum. 19.99
Item Five Ante turpis integer aliquet porttitor. 29.99
100.00

Alternate

Name Description Price
Item One Ante turpis integer aliquet porttitor. 29.99
Item Two Vis ac commodo adipiscing arcu aliquet. 19.99
Item Three Morbi faucibus arcu accumsan lorem. 29.99
Item Four Vitae integer tempus condimentum. 19.99
Item Five Ante turpis integer aliquet porttitor. 29.99
100.00

Buttons

  • Disabled
  • Disabled

Form