Mariage pour Tal Monde

Trameur


Pour pouvoir utiliser le trameur, il faut sélectionner nos fichiers dans la section cadre (1ere encart) en cliquant sur la toute première icône. Suite à cela, nous pouvons ajuster les paramètres de traitement de nos fichiers (encodage de base, encodage à choisir pour la génération de graphe grâce au treetagger) sachant que la majorité de nos URLs sont en utf-8. Le graphe généré apparait sous l’encartcooc et nous pouvons effectuer pas mal de réglage et ajustement dans la colonne situé à gauche de l’écran principal (voir capture d’écran).


Graphe et analyse - Chinois


Chtrameur

Tag cloud trameur à partir du terme «结婚»


J’ai d’abord délimité contexte-globaux par Lexico3, puis j’ai fait le Trame de mon corpus avec Trameur, à la fin j'ai obtenu un fichier XML, là, c’est le nuage de Trameur.

Chtrameur Chtrameur

L'occurence à partir du terme «结婚»|| L'occurence de mot traitée par 'stop-list'


- Analyse des mots-clés qui ont le plus d’occurrence :

Mots : 婚庆助手 各地 风俗 仪式

La confusion entourant le mariage en Chine reflète un pays en transition frénétique. Les fortes inégalités de richesse ont créé de nouvelles lignes de fracture dans la société, tandis que la plus grande migration rurale-urbaine dans l'histoire a brouillé la plupart des anciens repères. Jusqu'à 300 millions de ruraux chinois ont déménagé vers les villes dans les trois dernières décennies. Déracinés et sans parents proches pour les aider à organiser des réunions avec des partenaires potentiels, ces migrants sont souvent perdus dans la foule de la grande ville.


Mots : 计划生育 单身 相亲 相亲网站

Les changements démographiques, aussi, créent des complications. Non seulement y a beaucoup plus de femmes chinoises qui reportent leur mariage pour poursuivre des carrières, mais l'écart entre les sexes de la Chine - 118 garçons naissent pour 100 filles - est devenu l'un des plus importante du monde, alimentée en grande partie par la politique gouvernementale restrictive de l'enfant unique. À la fin de cette décennie, les chercheurs chinois estiment, le pays aura un excédent de 24 millions d'hommes célibataires.


Mots : 相亲 剩女 北京

Les hommes célibataires ont du mal à faire une liste de leurs atouts qui retiennent l’attention des candidates s’ils ne possèdent pas une maison ou un appartement, extrêmement coûteux dans des villes comme Beijing. Et malgré le déséquilibre entre les sexes, les femmes chinoises font face à une pression intense pour être mariées avant l'âge de 28 ans, de peur d'être rejetées et stigmatisées comme剩女 -- « les femmes délaissées ».


Graphe et analyse – Français



En ce qui concerne l’utilisation du trameur pour le corpus français, j’ai rencontré plusieurs points intéressants.

J’ai d’emblée sélectionné l’utf-8 pour la ligne correspondant à l’encodage de base. En ajustant les paramètres d’encodage, je me suis rendue compte que la sélection d’un encodage en utf-8 (Unicode) pour l’encodage du treetagger nous renvoyait une transcription du caractère <é> en <À©>. En sélectionnant l’encodage ISO 8859-1 (latin-1 Western Europe), le problème s’est résolu.

Certains termes apparaissant dans le graphe généré étaient loin d’être pertinent, en particulier ceux qui résultaient de choix d’écriture de certains sites dépourvus de ponctuation. Comme la tokenisation s’est faite au niveau des espaces, des mots comme ou sont apparus puisque sur le site sur lequel ils apparaissent et dont nous avons récupéré l’URLs, ils étaient écrit comme suit: . Pour pallier à cela, j’ai choisi d’effectuer un gros nettoyage des fichiers de base. Ce qui nous mène au point intéressant suivant.

C’était à prévoir: beaucoup de mots retournés par le graphe n’ont aucune pertinence sémantique pour notre étude lexicométrique. Sans surprise, ces mots appartiennent aux catégories grammaticales suivantes: prépositions, pronoms personnels sujets et objets, déterminants. Beaucoup de chiffres isolés du nom qu’ils déterminent sont ressortis aussi. Je les ai aussi ôté. Heureusement, je n’ai pas eu à réécrire tous ces termes manuellement dans la stop-liste (située dans la colonne de gauche) car certaines listes sont déjà proposées dans le logiciel. J’ai en effet sélectionné la liste étendue de terme français. Cependant, gros problème majeur: le filtrage de ces mots est sensible à la casse, ce qui signifiait que cette partie du travail allait tout de même s’avérer être très fastidieuse... mais ça en vaut la peine car voici le graphe (partiellement)nettoyé retourné:

Chtrameur

Graphe à partir du terme “mariage”


Chtrameur

Graphe à partir des termes “mariage”, “mariages”, “Mariage”, et “Mariages”.


Du fait que dans le contexte religieux le terme “mariages” ou “Mariages” aurait potentiellement peu de chances d’apparaître (ex: “le sacrement du mariage” n’existe jamais avec le mot “mariage” au pluriel), il m’a semblé judicieux d’effectuer le travail sur toutes les flexions de ce mot car ça aurait été accepter de prendre el risque de passer à côté d’une quantité importante de termes coocurrents pertinents.

J’ai aussi tenté de générer un graphe cette fois-ci non pas à partir des fichiers contextes mais à partir des fichiers dump-text. Voici une capture d’écran de ce graphe:

Chtrameur


Du fait que dans le contexte religieux le terme “mariages” ou “Mariages” aurait potentiellement peu de chances d’apparaître (ex: “le sacrement du mariage” n’existe jamais avec le mot “mariage” au pluriel), il m’a semblé judicieux d’effectuer le travail sur toutes les flexions de ce mot car ça aurait été accepter de prendre el risque de passer à côté d’une quantité importante de termes coocurrents pertinents.

J’ai aussi tenté de générer un graphe cette fois-ci non pas à partir des fichiers contextes mais à partir des fichiers dump-text. Voici une capture d’écran de ce graphe:


Graphe et analyse – Portugais



Les graphes en portugais se sont sortis avec des problèmes d'encodage, même si le fichier contexte et les paramètres de Trameur étaient bien encodé.

Chtrameur


Le graphe sorti était conçu à l'aide d'une expression regulière. Avec cette expression nous voulons voir les occurrences pertinentes dans notre motif en pluriel/singulier et majuscule/minuscule:

Chtrameur


La surprise: très peu de mot retourné et rien de à quoi nous nous attendions (excepté pour les mots “racial” [racial] et “interracial” [interacial]) Ces deux mots sont assez liés aux quelques discussions liées au mariage fait dans les religions afro-brésiliennes et aussi pour le mariage entre personnes d'etnies différents.

Nous avons donc essayé avec le fichier dump.

Chtrameur


Le résultat semble mieux, mais le problème d'encodage persiste. Pour l'analyse de ce graphe, nous avons une forte présence de mots liés à la religion par des mots comme “padre” [prêtre], “Umbanda” [religion afro-brésilienne], “pastores” [revérends] parmi d'autres. Ce résultat était attendu vu que les religions (surtout la chrétienne, répresentés de manière plus forte par les protestants) prennent toujours la parole pour défendre le mariage comme la base de la famille (mot qui a aussi apparu). Mais cela ne concerne pas tous les mariages, uniquement ceux entre un homme et une femme. Ainsi, les mots “aprovado” [promulgué] et “gay” sont apparus parce que il y a eu un débat autour du mariage pour des personnes du même sexe (débat medié surtout par des protestants). Il y a aussi la presence forte de mots liés à la fête. Ce résultat n'est pas du tout étrange vu que la fête du mariage a une place très important au Brésil. Remarquable: la présence des mots “carnaval” et “futebol”. Pas du tout attendu mais pas non plus étrange. C'est le Brésil, quoi...

Copyright © Mariage