La vie multilingue de "stress"


Dans le cadre de la formation pluriTAL 2016-2017, notre groupe de travail a choisi comme sujet du projet de premier semestre de traiter la notion de "stress". Pour résumer le contenu du projet, il suffit de décrire les différentes étapes que nous avons parcourues depuis ces derniers mois:

    ◍ Récolter manuellement des pages web contenant une ou plusieurs occurrences du thème choisi (le "motif")

    ◍ Élaborer un script en langage bash

    ◍ Analyser le résultat par "Le Trameur", développé par notre enseignant, M. Serge Fleury.

    ◍ Élaborer un site montrant nos résultats.

Notre projet se fait en quatre langues et cinq écritures:

Méthodes


Étapes

    1. Choix d’un thème sur lequel travailler
    2. Constitutions de fichiers d’URLs
    3. Réalisation d’un script en bash
      • aspiration des pages
      • dump des contenus textuels
      • récupération de l’encodage suivi d’un transcodage si nécessaire
      • création de contextes textuels et html (merci minigrep)
      • écriture des résultats dans un tableau html
    4. Segmentation des textes en chinois avec Stanford Word Segmenter
    5. Utilisation du logiciel le Trameur et d’iTrameur
      • graphes de co-occurences
      • (optionnel) récupérer les fichiers statistiques qu’on pourra utiliser pour créer les nuages de mots
    6. Création de nuages de mots
    7. Réalisation de ce site web, pour présenter nos résultats (ce qui a demandé un apprentissage des langages html et css)

Outils


1.LeTrameur

Le Trameur est un logiciel de textométrie, nous l’avons principalement utilisé afin de repérer les co-occurents des mots en lien avec le stress. Cette étape nous a également permis de nous rendre compte de l’importance des données collectées. Les dumps des articles étaient pollués par un certain nombre de données textuelles qui ne présentait pas d’intérêt pour nous (menus de navigation des pages web, listes d’articles mis en avant sur la page...). L’analyse avec le Trameur nous a montré qu’afin d’obtenir des analyses satisfaisantes, il est nécessaire de nettoyer les fichiers constituant notre corpus (automatiquement, de préférence).


2.Le choix des URLS

Nous avons choisi de collecter des URLs d’articles de presse, afin de constituer un corpus plus homogène. Pour constituer le corpus en anglais, les sites ont été sélectionnés en faisant attention à varier les régions


3.Le nuage des mots

Pour créer les nuages de mots, nous avons utilisé plusieurs outils: WordItOut, Word cloud generator


4.Segmentation du chinois

Le chinois est une langue très différente que les langues européennes, parce qu'il y pas de espaces entre les mots, donc quand on analyse le chinois il faut segmenter les mots en avance. Pour la segmentation, c'est Marine qui a trouvé l'outil Stanford Word Segmenter. C'est un logiciel développé par Université Stanford qui est le leader dans le domaine de TAL, donc c'est un outil très fiable, cependant, il reste encore des mots mal séparés, sa performance est moins pertinente sur le sinogramme traditionnel :il a y des faux mots, c'est-à-dire des phrasés sont traités comme des mots, ça influence un peu le résultat.


5.Langage Bash

C'est une sorte de boîte à outils, très puissante mais aussi très exigeante, qui nous est proposée pour faire nos premiers pas en programmation. Le Bash (Bourne-Again SHell), langage du shell UNIX, permet de travailler en ligne de commande ou bien dans des programmes élementaires constitués de commandes de ce langage, les scripts. Pourtant, ce langage n'a pas toujours très bonne presse auprès des programmeurs : peu portable, pas assez abstrait (ses données sont réputées "non typées"), il souffre de la comparaison avec les langages dédiés à la programmation tels que la famille des C, le Javascript, le Python et consorts qui sont effectivement plus spécialisés, donc plus puissants. Pourtant, cela reste un outil très pratique qui a connu une évolution progressive au cours de ses diverses versions, et pour peu qu'on soit assez familier avec ses subtilités, il sait se montrer très utile, un peu à la manière d'un couteau suisse.
Une alternative était de recourir au programme "Gromoteur" développé par M. Kim Gerdes, un autre de nos enseignants. C'est un peu le nec plus ultra par rapport à nos besoins, car il fonctionne de manière similaire et donne des résultats beaucoup plus avancés, avec toutes sortes de pré-traitements ; nous avons cependant préféré la démarche "do it yourself" consistant à mettre en place nos propres outils rudimentaires pour tenter d'aboutir à des résultats à peu près équivalents.


6.Le script

Comme c'est la première fois d'écrire un programme, au début c'est très difficile :les commandes inconnues, le script d'exemple a l'air très compliqué...Pour moi, le plus important est de comprendre le script, construire un diagramme pour le script est un bon choix, il nous aide de comprendre la logique(cliquez pour l'agrandir):

Puis il faut trouver un bon éditeur à écritre notre propre script, et j'ai utilisé textewrangle au début, ça m'a apporté des difficultés : pas de mémoire des noms de variables, pas de couleurs à distinguer commandes et variables...Après, j'ai connu Atom qui est un éditeur pas mal, un bon éditeur facilite beaucoup le travail.


7.Le site

C'est aussi la première fois de construire un site. Ça semble peut-être que c'est facile puisqu'on peut trouver pas mal de modèles de site sur Internet, ce que l'on doit faire est juste d'ajouter le contenu. Mais juste comme le script de bash, il faut comprendre le script de modèle en avance pour qu'on puisse ajouter le contenu dans la bonne place d'une bonne manière, de plus, si on veux ajouter styles, il faut apprendre plus de commandes de CSS et HTML, par exemple, j'ai dépensé beaucoup de temps à trouver une façon de mettre le script dans une page web, de plus, plein de détails à régler et à vérifier. Heureusement il y a un site qui donne des instructions de connaissances de construction de site web: W3School


8.Problème des sites chinois

A partir du tableau de sinogrammes simplifiés, on observe que les encodages de presque une moitié des sites sont gb2312, c’est bien différent que la situation des sites en autres langues, y compris les sites de sinogrammes traditionnels: leurs encodages sont presque tous utf-8.

GB2312 est le nom Internet enregistré pour un jeu de caractères officiels de la République populaire de Chine, utilisé pour les caractères chinois simplifiés, publié en 1985. GB est l'abréviation de Guojia Biaozhun, qui signifie Standard National en chinois. Alors que GB2312 couvre plus de 99% des caractères de l'usage contemporain, des textes historiques et de nombreux noms restent hors de portée. Mais pour les sites de presse ou de nouvelles, ça déjà suffit. Les caractères dans GB2312 sont disposés dans une grille 94x94 (comme dans ISO 2022), et le codepoint à deux octets de chaque caractère est exprimé dans la forme kuten (ou quwei), qui spécifie une rangée (ku ou qu) et la position de la Caractère dans la ligne (cellule, ten ou wei).Donc on sait que dans GB2312, un caractère tient deux octets.

L'encodage UTF-8 est apparu en 1996, c'est un codage de caractères informatiques conçu pour coder l'ensemble des caractères du "répertoire universel de caractères codés", défini par Unicode. UTF-8 est un encodage de longeur variante, c'est-à-dire que les longeurs de code sont diférentes, pour les caractères chinois, chaque caractère utilise généralement 3 octets, et pour des caractères plus anciens rarement utilisé, ils utilisent eventuellement 4 octets.

En comparant encodage UTF-8 et GB2312, on peut trouver la raison de l'utilisation populaire de GB2312 en Chine: GB2312 correspond aux besoins d'utilisation quotidienne en utilisant moins d'octets pour chaque caractère que UTF-8(GB2312: 2octets/caractère, UTF-8 3octets/caractère); d'autre côté, GB2312 est apparu plus tôt que UTF-8, donc il y a des sites construits avant 1996 qui préfèrent de continuer utiliser l'encodage qu'ils utilisent depuis longtemps, pour un grand site web, c'est difficide de changer l'encodage.


9.Les spécificités du script synthétique

  Notre intention était de se réapproprier le programme générique construit sur la base fournie par les enseignants et de présenter quelque chose d'un peu plus personnel qui permettrait aussi d'utiliser les spécificités de Bash. Et nous avons plutôt réussi cette tâche, semble-t-il, puisque le second script fonctionne tout autant. Il sera certes plus ardu à comprendre, car il met en pratique des éléments un peu avancé de la syntaxe Bash, mais en même temps, la compréhension de la structure sous-jacente paraît moins compliquée, justement grâce à cet effort de synthèse.
Plusieurs points distinguent cette seconde version :

  • Il ne s'agit plus d'un programme interactif. Plutôt que de saisir les paramètres au clavier après le lancement du script, il faut un fichier d'initialisation qui contient deux lignes avec les informations en question : l'emplacement du fichier d'URLs sur la machine et le motif (pour en compter les occurrences); la première section du corps du programme consiste à vérifier qu'il y a bien un et un seul argument passé au script en ligne de commande qui pointe vers un fichier lisible et conforme. Si toutes ces conditions sont vérifiées, le script s'exécute normalement en affichant sur la console des messages sur le traitement de chaque URL, puis termine avec quelques lignes de résultat et renvoie un code de sortie 0 qui indique que tout s'est déroulé correctement.
  • En ce qui concerne l'aspect synthétique, il repose principalement sur la simplification de la structure logique du script initial ; en effet, celui-ci propose une série de tests sur chaque URL pour vérifier successivement si l'aspiration de la page s'est bien passée, si l'encodage d'origine a été reconnu et si c'est de l'UTF-8 ou non. La plupart de ces tests sont imbriqués les uns dans les autres avec des blocs correspondants de lignes de résultats, si bien que la structure générale du script d'origine est plutôt lourde et difficile à appréhender. Notre parti pris pour résoudre ce problème a été de tout simplifier en recourant à des fonctions et des variables (on a tout "paramétrisé").
    La première fonction sert à vérifier l'encodage d'un fichier passé en argument et renvoie la variable contenant cette information ; il faudrait toutefois l'améliorer car elle repose sur le résultat de la commande 'file' qui n'est pas toujours très fiable.
    La seconde regroupe tous les traitements de sortie qui permettent de récupérer le contenu textuel de la page web ciblée, l'intégrer au corpus, compter les occurrences du motif et donner l'index (liste de tous les mots du texte et leur fréquence absolue).
    Les tests successifs sont remplacés par une instruction de branchement 'case' qui vérifie le résultat de la fonction d'encodage et selon les trois cas de figure possibles (pas reconnu/UTF-8/autre), effectue les traitements nécessaires : l'écriture des résultats dans le tableau final et le cas échéant, la conversion au format UTF-8 et l'ajout des données au corpus. Du coup, le bloc qui génère une nouvelle ligne du tableau n'apparaît qu'une fois dans le script en fonction du branchement.
  • En dernier lieu, cette version alternative traite un peu différemment l'arborescence du projet dans la mesure où elle vérifie la présence des dossiers de résultats (aspirées, dumps, contextes et tableaux) et les crée si besoin. Elle ne regroupe pas tous les résultats dans un tableau unique mais en ajoute un par fichier d'URLs traité et ajoute les fichiers aspirée, dump et contexte de chaque URL dans un dossier de résultats identifié par fichier d'URLs (les fichiers d'index sont placés dans le même dossier que les dumps); de même, les noms de fichier ont été un peu plus explicités que les simples références à leur valeur d'indexation. La mise en forme des tableaux est aussi un peu différente : la colonne "dump initial" a été supprimée car rendue obsolète, comme celle de "statut curl", jugée redondante et on a rajouté deux lignes de résultats avec les liens vers les fichiers globaux ainsi que le nombre total d'occurrences relevées.


10.Le script "nettoyeur"

  C'est l'outil le plus rudimentaire mais il a le mérite d'accomplir soigneusement sa tâche. Il purge le corpus en éliminant ce qu'on lui demande et accepte des expressions régulières (du moins celles reconnues par 'sed' car il est construit autour de cette commande). Dans les fichiers de dump global, il peut y avoir en effet beaucoup d'informations inutiles et de toute façon il est impératif, avant d'entamer les analyses, d'éliminer toutes sortes de mots grammaticaux (articles, pronoms, prépositions, etc.) qui pourraient fortement compromettre les résultats. Le script fonctionne de la manière suivante : on indique le fichier cible comme argument du script et on obtient en sortie deux nouveaux fichiers, un pour le fichier filtré et un fichier "crible" qui contient l'ensemble des formes supprimées dans le fichier source (qui reste intact).
Une particularité de ce script est qu'il comprend un document embarqué (Here-document) qu'il faut modifier pour constituer le filtre. En gros, il faut écrire spécifiquement le mot ou l'expression régulière que l'on veut nettoyer dans un espace prévu à cet effet (entre les lignes "LISTE_FILTRE"). Concrètement, nous avons dû procéder par affinements successifs pour constituer la liste de formes à filtrer ; il s'est avéré particulièrement pratique de partir d'un nuage de mots du dump global et de relever tout ce qui semblait superflu, et on a encore augmenté la liste en utilisant les premiers résultats donnés par le Trameur et en parcourant manuellement l'ensemble du document. Il est donc pratique de conserver cette liste dans un autre fichier qu'il suffit de copier-coller dans le script. Et voilà !
Le seul petit inconvénient, si l'on excepte le fait qu'il faut modifier la partie filtre du script à chaque usage au lieu de passer un fichier en argument, est qu'il est impératif de lancer le script depuis le même dossier que celui où se trouve le fichier cible.



Difficultés essentiels rencontrées :

  • Résoudre les problèmes d’encodage
  • Segmenter les corpus en chinois
  • Nettoyer les fichiers dumps pour enlever des informations superflues (résolu en partie seulement)
  • Problèmes engendrés à cause des différents systèmes d'exploitation: Windows, MacOs, Ubuntu
  • Scripts

    Vous pouvez voir nos scripts ici et les télécharger.

  • Le script de Mengwei
  • Le script de Marine
  • Le script de Laurent
  • *Pour voir les lignes longues il faut glisser vers droite.


    Le script de Mengwei

    Comme je travaille sur Mac pendant que les professeurs nous a donnés l'exemplaire de script de Windows, j'ai renconté beaucoup de problèmes sur les commandes,donc j'ai souvent cherché des solutions sur Internet donc il y a peut-être des commandes un peu différentes. J'ai insérer le procédé de concanétation des textes dans mon script puisque le programme de concaténation ne fonctionne pas sur mon ordianateur.

    #!/bin/bash
        #--read files--#
        read folder
            read tablefileread motifecho "le dossier d'URLS sont: ${folder}"echo "le fichier contenant le tableau est: ${tablefile}"echo "le modif est: ${motif}"nomtable=1#--write the style of table--#echo "<html><head><style>p{text-align:center;}hr{color:red;width=80%;}table{margin-left:10%; width:80%;text-align:center;border-style:solid;border-width:1px;border-color:grey;}tr{text-align:center;}td{text-align:center;border-style:solid;border-width:1px;border-color:grey;}</style></head><body>">${tablefile}#--first boucle for every file,each file has a table--#for file in `ls ${folder}`{#--the title of table--#	nomurl=1	echo "${file}"	echo "<p><hr /></p>">> ${tablefile}	echo "<table>">> ${tablefile}	echo "<tr><td colspan=\"11\">Table n<sup>o</sup>${nomtable}</td></tr>">> ${tablefile}	echo "<tr>	<td><b>N&deg</b></td>	<td><b>Lien</b></td>	<td><b>Code CURL</b></td>	<td><b>Statut CURL</b></td>	<td><b>Page Aspir&eacute;e</b></td>	<td><b>Encodage Initial</b></td>	<td><b>DUMP initial</b></td>	<td><b>DUMP UTF-8</b></td>	<td><b>CONTEXTE UTF-8</b></td>	<td><b>CONTEXTE HTML UTF-8</b></td>	<td><b>Fq MOTIF</b></td>	</tr>">> ${tablefile}#--strat to analyse each lien in a file--#	for url in `cat ${folder}/${file}`	{	echo ${url}	echo "Techecharement de ${line} vers ./PAGES-ASPIREES/${nomtable}-${nomurl}.html"	curl ${url} -o ./Pages-ASPIREES/"${nomtable}-${nomurl}".html	b=$?	echo ${b}	echo "CODE RETOUR CURL: $?"#--vérifier l'execusion par $?--if 0, telechargement succes, else return the error message#		if [ $b = 0 ];		then echo "telechargement reussite"        statu1=$(curl -sI ${url} | head -1)        statu2=$(curl --silent --output ./PAGES-ASPIREES/"${nomtable}-${nomurl}".html --write-out "%{http_code}" ${url})        encodage=$(curl -sI ${url}|egrep -i "charset=" | cut -f2 -d= | tr -d "\n" | tr -d "\r"| tr "[:upper:]" "[:lower:]")        echo "Encodage $url : $encodage"#--it's possible that the curl can't work,so we should use other methods to get the encodage, first choice is "egrep", then "file" which is the last choice--#            if [ ! -n "$encodage"  ];            then            encodage=$(egrep -iom 1 "charset *=[^ \>]+" ./PAGES-ASPIREES/"${nomtable}-${nomurl}".html | cut -d= -f 2 | tr -d "\"" | tr -d "\n" | tr -d "\r" | tr -d "\'" | tr -d "\/" | tr "[:upper:]" "[:lower:]")            type='via egrep'            echo $encodage                if [ ! -n "$encodage"  ]                then                encodage=$(file -I ./PAGES-ASPIREES/"${nomtable}-${nomurl}".html | cut -d= -f2)                type='via file'                echo $encodage                    if [ ! -n "$encodage"  ]                    then                    echo "encodage est impossible a detecte"fi                else                echo "encodage est detecte dans egrep: $encodage"                fi            else            type='via curl'            echo "success, encodage est: $encodage"            fi#--the test for utf-8, if the encodage of the site is utf8, wo can analyse the content directly, else we CONVERTIR the original encodage to utf-8--#        if [ $encodage = 'utf-8' ];        then            echo "DUMP de $url via lynx"            lynx -dump -nolist -assume_charset=${encodage} -display_charset="UTF-8" ${url} > ./DUMP-TEXT/"$nomtable-$nomurl".txt            echo "<t=$nomtable-$nomurl.txt>">>./DUMP-TEXT/"concatenationDUMP_$nomtable".txt            lynx -dump -nolist -assume_charset=${encodage} -display_charset="UTF-8" ${url} >> ./DUMP-TEXT/"concatenationDUMP_$nomtable".txt            egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl".txt>./CONTEXTES/"$nomtable-$nomurl".txt            echo "<t=$nomtable-$nomurl.txt>">>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt            egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl".txt>>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt            nbmotif=$(egrep -coi $motif ./DUMP-TEXT/"$nomtable-$nomurl".txt)            perl minigrep/minigrepmultilingue.pl UTF-8 DUMP-TEXT/"$nomtable-$nomurl".txt minigrep/motif.txt            mv resultat-extraction.html ./CONTEXTES/"$nomtable-$nomurl".html            echo $nbmotif            echo "ECRITURE RESULTAT dans le tableau"            echo "<tr>            <td>${nomurl}</td>            <td><a href="${url}">lien n<sup>o</sup>$nomurl</a></td>            <td>${statu2}</td>            <td><small>${statu1}</small></td>            <td><a href='./PAGES-ASPIREES/${nomtable}-${nomurl}.html'>n<sup>o</sup>${nomtable}-${nomurl}</a></td>            <td>${encodage},$type</td>            <td>-</td>            <td><a href='./DUMP-TEXT/$nomtable-$nomurl.txt'>DUMP n<sup>o</sup>$nomtable-$nomurl</a></td>            <td><a href='./CONTEXTES/$nomtable-$nomurl.txt'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>            <td><a href='./CONTEXTES/$nomtable-$nomurl.html'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>            <td>$nbmotif</td>            </tr>" >>${tablefile}#--the problem of the no utf-8 site is that it's possible its encodage dosen't exist in iconv list, so it needs to verify, then do the iconv--#        else            newencodage=`tr '[a-z]' '[A-Z]' <<<"$encodage"`            iconv -l | egrep $newencodage            x=$?            echo $x                if [ $x = 1 ];                then                    echo "encodage existe pas dans iconv"                    echo "ECRITURE RESULTAT dans le tableau"                    echo "<tr>                    <td>${nomurl}</td>                    <td><a href="${url}">lien n<sup>o</sup>$nomurl</a></td>                    <td>${statu2}</td>                    <td><small>${statu1}</small></td>                    <td><a href='./PAGES-ASPIREES/${nomtable}-${nomurl}.html'>n<sup>o</sup>${nomtable}-${nomurl}</a></td>                    <td>${encodage}</td>                    <td>-</td>                    <td>-</td>                    <td>-</td>                    <td>-</td>                    </tr>" >>${tablefile}                else                    echo "encodage detecte"                    #problem                    lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $url >./DUMP-TEXT/"$nomtable-$nomurl-1".txt                    #file pas assez fiable, uilise pas file pour les sites chinois qui utilise gb2312                     #filencodage=$file -I ./DUMP-TEXT/"$nomtable-$nomurl-1".txt | cut -d= -f2)                    #echo $filencodage                    iconv -f $encodage -t UTF-8 ./DUMP-TEXT/$nomtable-$nomurl-1.txt >./DUMP-TEXT/$nomtable-$nomurl-2.txt                    echo "<t=$nomtable-$nomurl-2.txt>">>./DUMP-TEXT/"concatenationDUMP_$nomtable".txt                    iconv -f $encodage -t UTF-8 ./DUMP-TEXT/$nomtable-$nomurl-1.txt >>./DUMP-TEXT/"concatenationDUMP_$nomtable".txt                    #encodageconv=$(file -I ./DUMP-TEXT/$nomtable-$nomurl-2.txt)                    #echo $encodageconv                    egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl-2".txt>./CONTEXTES/"$nomtable-$nomurl".txt                    echo "<t=$nomtable-$nomurl.txt>">>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt                    egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl-2".txt>>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt                    nbmotif=$(egrep -coi $motif ./DUMP-TEXT/"$nomtable-$nomurl-2".txt)                    perl minigrep/minigrepmultilingue.pl UTF-8 ./DUMP-TEXT/"$nomtable-$nomurl-2".txt minigrep/motif.txt                    mv resultat-extraction.html ./CONTEXTES/"$nomtable-$nomurl".html                    echo $nbmotif                    echo "ECRITURE RESULTAT dans le tableau"                    echo "<tr>                    <td>${nomurl}</td>                    <td><a href="${url}">lien n<sup>o</sup>$nomurl</a></td>                    <td>${statu2}</td>                    <td><small>${statu1}</small></td>                    <td><a href='./PAGES-ASPIREES/${nomtable}-${nomurl}.html'>n<sup>o</sup>${nomtable}-${nomurl}</a></td>                    <td>${encodage}, $type</td>                    <td><a href='./DUMP-TEXT/$nomtable-$nomurl-1.txt'>DUMP n<sup>o</sup>$nomtable-$nomurl-1</a></td>                    <td><a href='./DUMP-TEXT/$nomtable-$nomurl-2.txt'>DUMP n<sup>o</sup>$nomtable-$nomurl-2</a></td>                    <td><a href='./CONTEXTES/$nomtable-$nomurl.txt'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>                    <td><a href='./CONTEXTES/$nomtable-$nomurl.html'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>                    <td>$nbmotif</td>                    </tr>" >>${tablefile}                fi        fi					let "nomurl=nomurl+1"    else        echo "telechargement echoue"    fi		}			echo "</table>" >>${tablefile}			let "nomtable=nomtable+1"}		echo "</body></html>">>${tablefile}#----The end------#;
    
    
  • Vous pouvez télécharger le script ici

  • Le script de Marine


  • Vous pouvez télécharger le script ici

  • Le script de Laurent

    Nous avons produit plusieurs scripts pour le traitement des données d'entrée à savoir les listes d'URLs récoltées manuellement. L'enjeu étant d'automatiser tout le reste des traitements afin de constituer des corpus pour nos analyses (de quoi nourrir le Trameur, en somme), nous avons proposé deux scripts principaux, l'un "générique" et l'autre "synthétique", qui sont des versions quasi-similaires des traitements essentiels permettant de produire les données brutes et les tableaux qui les présentent, plus un script de "nettoyage" pour les fichiers de corpus. Les résultats présentés dans les sections suivantes du site sont ceux fournis par le script générique, car le script synthétique ne sert qu'à montrer les possibilités du langage Bash et offrir une variante (nous ne sommes pas en mesure de vérifier laquelle des deux versions est la plus performante; ce peut être aussi bien l'une que l'autre).


    • Vous pouvez télécharger le script synthétique ici, et le script de nettoyage ici.

    Tableaux

    Pour les quartre langues étudiés, on fait en total 5 tableaux:

  • Tableno1:Le tableau de Sinogramme simplifié(50 liens)
  • Tableno2:Le tableau de Sinogramme traditionnel(50 liens)
  • Tableno3:Le tableau de français(101 liens)
  • Tableno4:Le tableau d'anglais(108 liens)
  • Tableno5:Le tableau d'espagnol(60 liens)

  • Table no1 (Sinogramme simplifié)
    Lien Code CURL Statut CURL Page Aspirée Encodage Initial DUMP initial DUMP UTF-8 CONTEXTE UTF-8 CONTEXTE HTML UTF-8 Fq MOTIF
    1 lien no1 200 HTTP/1.1 200 OK no1-1 utf-8,via egrep - DUMP no1-1 CONTEXTE no1-1 CONTEXTE no1-1 63
    2 lien no2 200 HTTP/1.1 200 OK no1-2 utf-8,via egrep - DUMP no1-2 CONTEXTE no1-2 CONTEXTE no1-2 5
    3 lien no3 200 HTTP/1.1 200 OK no1-3 utf-8,via egrep - DUMP no1-3 CONTEXTE no1-3 CONTEXTE no1-3 6
    4 lien no4 200 HTTP/1.1 200 OK no1-4 utf-8,via egrep - DUMP no1-4 CONTEXTE no1-4 CONTEXTE no1-4 14
    5 lien no5 200 HTTP/1.1 200 OK no1-5 utf-8,via egrep - DUMP no1-5 CONTEXTE no1-5 CONTEXTE no1-5 4
    6 lien no6 200 HTTP/1.1 200 OK no1-6 utf-8,via egrep - DUMP no1-6 CONTEXTE no1-6 CONTEXTE no1-6 7
    7 lien no7 200 HTTP/1.1 200 OK no1-7 utf-8,via curl - DUMP no1-7 CONTEXTE no1-7 CONTEXTE no1-7 16
    8 lien no8 200 HTTP/1.1 200 OK no1-8 utf-8,via curl - DUMP no1-8 CONTEXTE no1-8 CONTEXTE no1-8 2
    9 lien no9 200 HTTP/1.1 200 OK no1-9 gb2312, via egrep DUMP no1-9-1 DUMP no1-9-2 CONTEXTE no1-9 CONTEXTE no1-9 10
    10 lien no10 200 HTTP/1.1 200 OK no1-10 utf-8,via curl - DUMP no1-10 CONTEXTE no1-10 CONTEXTE no1-10 3
    11 lien no11 200 HTTP/1.1 200 OK no1-11 gb2312, via curl DUMP no1-11-1 DUMP no1-11-2 CONTEXTE no1-11 CONTEXTE no1-11 5
    12 lien no12 200 HTTP/1.1 200 OK no1-12 utf-8,via curl - DUMP no1-12 CONTEXTE no1-12 CONTEXTE no1-12 5
    13 lien no13 200 HTTP/1.1 200 OK no1-13 utf-8,via egrep - DUMP no1-13 CONTEXTE no1-13 CONTEXTE no1-13 9
    14 lien no14 200 HTTP/1.1 200 OK no1-14 gb2312, via egrep DUMP no1-14-1 DUMP no1-14-2 CONTEXTE no1-14 CONTEXTE no1-14 4
    15 lien no15 200 HTTP/1.1 200 OK no1-15 utf-8,via curl - DUMP no1-15 CONTEXTE no1-15 CONTEXTE no1-15 4
    16 lien no16 200 HTTP/1.1 200 OK no1-16 utf-8,via egrep - DUMP no1-16 CONTEXTE no1-16 CONTEXTE no1-16 2
    17 lien no17 200 HTTP/1.0 200 OK no1-17 utf-8,via egrep - DUMP no1-17 CONTEXTE no1-17 CONTEXTE no1-17 11
    18 lien no18 200 HTTP/1.1 200 OK no1-18 gb2312, via egrep DUMP no1-18-1 DUMP no1-18-2 CONTEXTE no1-18 CONTEXTE no1-18 4
    19 lien no19 200 HTTP/1.1 200 OK no1-19 utf-8,via egrep - DUMP no1-19 CONTEXTE no1-19 CONTEXTE no1-19 5
    20 lien no20 200 HTTP/1.1 200 OK no1-20 gb2312, via egrep DUMP no1-20-1 DUMP no1-20-2 CONTEXTE no1-20 CONTEXTE no1-20 7
    21 lien no21 200 HTTP/1.1 200 OK no1-21 gb2312, via egrep DUMP no1-21-1 DUMP no1-21-2 CONTEXTE no1-21 CONTEXTE no1-21 39
    22 lien no22 200 HTTP/1.1 200 OK no1-22 gb2312, via egrep DUMP no1-22-1 DUMP no1-22-2 CONTEXTE no1-22 CONTEXTE no1-22 24
    23 lien no23 200 HTTP/1.1 200 OK no1-23 gb2312, via egrep DUMP no1-23-1 DUMP no1-23-2 CONTEXTE no1-23 CONTEXTE no1-23 16
    24 lien no24 200 HTTP/1.1 200 OK no1-24 gb2312, via egrep DUMP no1-24-1 DUMP no1-24-2 CONTEXTE no1-24 CONTEXTE no1-24 8
    25 lien no25 200 HTTP/1.0 200 OK no1-25 utf-8,via egrep - DUMP no1-25 CONTEXTE no1-25 CONTEXTE no1-25 6
    26 lien no26 200 HTTP/1.1 200 OK no1-26 utf-8,via curl - DUMP no1-26 CONTEXTE no1-26 CONTEXTE no1-26 12
    27 lien no27 200 HTTP/1.1 200 OK no1-27 utf-8,via egrep - DUMP no1-27 CONTEXTE no1-27 CONTEXTE no1-27 10
    28 lien no28 200 HTTP/1.1 200 OK no1-28 gb2312, via egrep DUMP no1-28-1 DUMP no1-28-2 CONTEXTE no1-28 CONTEXTE no1-28 36
    29 lien no29 200 HTTP/1.1 200 OK no1-29 gb2312, via egrep DUMP no1-29-1 DUMP no1-29-2 CONTEXTE no1-29 CONTEXTE no1-29 3
    30 lien no30 200 HTTP/1.1 200 OK no1-30 gb2312, via egrep DUMP no1-30-1 DUMP no1-30-2 CONTEXTE no1-30 CONTEXTE no1-30 9
    31 lien no31 200 HTTP/1.1 200 OK no1-31 gb2312, via egrep DUMP no1-31-1 DUMP no1-31-2 CONTEXTE no1-31 CONTEXTE no1-31 2
    32 lien no32 200 HTTP/1.1 200 OK no1-32 gb2312, via egrep DUMP no1-32-1 DUMP no1-32-2 CONTEXTE no1-32 CONTEXTE no1-32 2
    33 lien no33 200 HTTP/1.1 200 OK no1-33 utf-8,via egrep - DUMP no1-33 CONTEXTE no1-33 CONTEXTE no1-33 3
    34 lien no34 200 HTTP/1.1 200 OK no1-34 gb2312, via egrep DUMP no1-34-1 DUMP no1-34-2 CONTEXTE no1-34 CONTEXTE no1-34 12
    35 lien no35 200 HTTP/1.0 200 OK no1-35 utf-8,via egrep - DUMP no1-35 CONTEXTE no1-35 CONTEXTE no1-35 4
    36 lien no36 200 HTTP/1.0 200 OK no1-36 utf-8,via egrep - DUMP no1-36 CONTEXTE no1-36 CONTEXTE no1-36 18
    37 lien no37 200 HTTP/1.1 200 OK no1-37 utf-8,via egrep - DUMP no1-37 CONTEXTE no1-37 CONTEXTE no1-37 15
    38 lien no38 200 HTTP/1.1 200 OK no1-38 gb2312, via egrep DUMP no1-38-1 DUMP no1-38-2 CONTEXTE no1-38 CONTEXTE no1-38 20
    39 lien no39 200 HTTP/1.1 200 OK no1-39 gb2312, via egrep DUMP no1-39-1 DUMP no1-39-2 CONTEXTE no1-39 CONTEXTE no1-39 10
    40 lien no40 200 HTTP/1.1 200 OK no1-40 gb2312, via egrep DUMP no1-40-1 DUMP no1-40-2 CONTEXTE no1-40 CONTEXTE no1-40 10
    41 lien no41 200 HTTP/1.1 200 OK no1-41 gb2312, via egrep DUMP no1-41-1 DUMP no1-41-2 CONTEXTE no1-41 CONTEXTE no1-41 10
    42 lien no42 200 HTTP/1.1 200 OK no1-42 gb2312, via curl DUMP no1-42-1 DUMP no1-42-2 CONTEXTE no1-42 CONTEXTE no1-42 4
    43 lien no43 200 HTTP/1.1 200 OK no1-43 utf-8,via egrep - DUMP no1-43 CONTEXTE no1-43 CONTEXTE no1-43 7
    44 lien no44 200 HTTP/1.1 200 OK no1-44 gb2312, via egrep DUMP no1-44-1 DUMP no1-44-2 CONTEXTE no1-44 CONTEXTE no1-44 11
    45 lien no45 200 HTTP/1.1 200 OK no1-45 utf-8,via curl - DUMP no1-45 CONTEXTE no1-45 CONTEXTE no1-45 2
    46 lien no46 200 HTTP/1.1 200 OK no1-46 gb2312, via egrep DUMP no1-46-1 DUMP no1-46-2 CONTEXTE no1-46 CONTEXTE no1-46 34
    47 lien no47 200 HTTP/1.1 200 OK no1-47 utf-8,via curl - DUMP no1-47 CONTEXTE no1-47 CONTEXTE no1-47 4
    48 lien no48 200 HTTP/1.1 200 OK no1-48 utf-8,via egrep - DUMP no1-48 CONTEXTE no1-48 CONTEXTE no1-48 33
    49 lien no49 200 HTTP/1.1 200 OK no1-49 utf-8,via egrep - DUMP no1-49 CONTEXTE no1-49 CONTEXTE no1-49 5
    50 lien no50 200 HTTP/1.1 200 OK no1-50 gb2312, via egrep DUMP no1-50-1 DUMP no1-50-2 CONTEXTE no1-50 CONTEXTE no1-50 1

    Au top


    Table no2(Sinogramme traditionnel)
    Lien Code CURL Statut CURL Page Aspirée Encodage Initial DUMP initial DUMP UTF-8 CONTEXTE UTF-8 CONTEXTE HTML UTF-8 Fq MOTIF
    1 lien no1 200 HTTP/1.1 200 OK no2-1 utf-8,via egrep - DUMP no2-1 CONTEXTE no2-1 CONTEXTE no2-1 76
    2 lien no2 200 HTTP/1.1 200 OK no2-2 utf-8,via curl - DUMP no2-2 CONTEXTE no2-2 CONTEXTE no2-2 13
    3 lien no3 200 HTTP/1.1 200 OK no2-3 utf-8,via curl - DUMP no2-3 CONTEXTE no2-3 CONTEXTE no2-3 23
    4 lien no4 200 HTTP/1.1 200 OK no2-4 utf-8,via egrep - DUMP no2-4 CONTEXTE no2-4 CONTEXTE no2-4 21
    5 lien no5 200 HTTP/1.1 200 OK no2-5 utf-8,via curl - DUMP no2-5 CONTEXTE no2-5 CONTEXTE no2-5 15
    6 lien no6 200 HTTP/1.1 200 OK no2-6 utf-8,via curl - DUMP no2-6 CONTEXTE no2-6 CONTEXTE no2-6 4
    7 lien no7 200 HTTP/1.1 200 OK no2-7 utf-8,via egrep - DUMP no2-7 CONTEXTE no2-7 CONTEXTE no2-7 15
    8 lien no8 200 HTTP/1.1 200 OK no2-8 utf-8,via curl - DUMP no2-8 CONTEXTE no2-8 CONTEXTE no2-8 7
    9 lien no9 200 HTTP/1.1 200 OK no2-9 utf-8,via egrep - DUMP no2-9 CONTEXTE no2-9 CONTEXTE no2-9 6
    10 lien no10 200 HTTP/1.1 200 OK no2-10 utf-8,via curl - DUMP no2-10 CONTEXTE no2-10 CONTEXTE no2-10 11
    11 lien no11 200 HTTP/1.1 200 OK no2-11 utf-8,via egrep - DUMP no2-11 CONTEXTE no2-11 CONTEXTE no2-11 6
    12 lien no12 200 HTTP/1.1 200 OK no2-12 utf-8,via curl - DUMP no2-12 CONTEXTE no2-12 CONTEXTE no2-12 4
    13 lien no13 200 HTTP/1.1 200 OK no2-13 utf-8,via curl - DUMP no2-13 CONTEXTE no2-13 CONTEXTE no2-13 2
    14 lien no14 200 HTTP/1.1 200 OK no2-14 utf-8,via curl - DUMP no2-14 CONTEXTE no2-14 CONTEXTE no2-14 5
    15 lien no15 200 HTTP/1.1 200 OK no2-15 utf-8,via egrep - DUMP no2-15 CONTEXTE no2-15 CONTEXTE no2-15 4
    16 lien no16 200 HTTP/1.1 200 OK no2-16 utf-8,via curl - DUMP no2-16 CONTEXTE no2-16 CONTEXTE no2-16 14
    17 lien no17 200 HTTP/1.1 200 OK no2-17 utf-8,via curl - DUMP no2-17 CONTEXTE no2-17 CONTEXTE no2-17 5
    18 lien no18 200 HTTP/1.1 200 OK no2-18 utf-8,via curl - DUMP no2-18 CONTEXTE no2-18 CONTEXTE no2-18 5
    19 lien no19 200 HTTP/1.1 200 OK no2-19 utf-8,via curl - DUMP no2-19 CONTEXTE no2-19 CONTEXTE no2-19 4
    20 lien no20 200 HTTP/1.1 200 OK no2-20 utf-8,via curl - DUMP no2-20 CONTEXTE no2-20 CONTEXTE no2-20 15
    21 lien no21 200 HTTP/1.1 200 OK no2-21 utf-8,via curl - DUMP no2-21 CONTEXTE no2-21 CONTEXTE no2-21 10
    22 lien no22 200 HTTP/1.1 200 OK no2-22 utf-8,via egrep - DUMP no2-22 CONTEXTE no2-22 CONTEXTE no2-22 3
    23 lien no23 200 HTTP/1.1 200 OK no2-23 utf-8,via curl - DUMP no2-23 CONTEXTE no2-23 CONTEXTE no2-23 3
    24 lien no24 200 HTTP/1.1 200 OK no2-24 utf-8,via curl - DUMP no2-24 CONTEXTE no2-24 CONTEXTE no2-24 10
    25 lien no25 200 HTTP/1.1 200 OK no2-25 utf-8,via curl - DUMP no2-25 CONTEXTE no2-25 CONTEXTE no2-25 1
    26 lien no26 200 HTTP/1.1 200 OK no2-26 utf-8,via egrep - DUMP no2-26 CONTEXTE no2-26 CONTEXTE no2-26 7
    27 lien no27 200 HTTP/1.1 200 OK no2-27 utf-8,via curl - DUMP no2-27 CONTEXTE no2-27 CONTEXTE no2-27 6
    28 lien no28 200 HTTP/1.1 200 OK no2-28 utf-8,via curl - DUMP no2-28 CONTEXTE no2-28 CONTEXTE no2-28 13
    29 lien no29 200 HTTP/1.1 200 OK no2-29 utf-8,via curl - DUMP no2-29 CONTEXTE no2-29 CONTEXTE no2-29 3
    30 lien no30 200 HTTP/1.1 200 OK no2-30 utf-8,via curl - DUMP no2-30 CONTEXTE no2-30 CONTEXTE no2-30 4
    31 lien no31 200 HTTP/1.1 200 OK no2-31 utf-8,via egrep - DUMP no2-31 CONTEXTE no2-31 CONTEXTE no2-31 3
    32 lien no32 200 HTTP/1.1 200 OK no2-32 utf-8,via egrep - DUMP no2-32 CONTEXTE no2-32 CONTEXTE no2-32 9
    33 lien no33 200 HTTP/1.1 200 OK no2-33 utf-8,via egrep - DUMP no2-33 CONTEXTE no2-33 CONTEXTE no2-33 2
    34 lien no34 200 HTTP/1.1 200 OK no2-34 utf-8,via curl - DUMP no2-34 CONTEXTE no2-34 CONTEXTE no2-34 2
    35 lien no35 200 HTTP/1.1 200 OK no2-35 utf-8,via egrep - DUMP no2-35 CONTEXTE no2-35 CONTEXTE no2-35 3
    36 lien no36 200 HTTP/1.1 200 OK no2-36 utf-8,via egrep - DUMP no2-36 CONTEXTE no2-36 CONTEXTE no2-36 4
    37 lien no37 200 HTTP/1.1 200 OK no2-37 utf-8,via curl - DUMP no2-37 CONTEXTE no2-37 CONTEXTE no2-37 8
    38 lien no38 200 HTTP/1.1 200 OK no2-38 utf-8,via curl - DUMP no2-38 CONTEXTE no2-38 CONTEXTE no2-38 5
    39 lien no39 200 HTTP/1.1 200 OK no2-39 utf-8,via curl - DUMP no2-39 CONTEXTE no2-39 CONTEXTE no2-39 8
    40 lien no40 200 HTTP/1.1 200 OK no2-40 utf-8,via egrep - DUMP no2-40 CONTEXTE no2-40 CONTEXTE no2-40 5
    41 lien no41 200 HTTP/1.1 200 OK no2-41 utf-8,via curl - DUMP no2-41 CONTEXTE no2-41 CONTEXTE no2-41 5
    42 lien no42 200 HTTP/1.1 200 OK no2-42 utf-8,via curl - DUMP no2-42 CONTEXTE no2-42 CONTEXTE no2-42 24
    43 lien no43 200 HTTP/1.1 200 OK no2-43 utf-8,via curl - DUMP no2-43 CONTEXTE no2-43 CONTEXTE no2-43 4
    44 lien no44 200 HTTP/1.1 200 OK no2-44 utf-8,via curl - DUMP no2-44 CONTEXTE no2-44 CONTEXTE no2-44 8
    45 lien no45 200 HTTP/1.1 200 OK no2-45 utf-8,via curl - DUMP no2-45 CONTEXTE no2-45 CONTEXTE no2-45 28
    46 lien no46 200 HTTP/1.1 200 OK no2-46 utf-8,via egrep - DUMP no2-46 CONTEXTE no2-46 CONTEXTE no2-46 2
    47 lien no47 200 HTTP/1.1 200 OK no2-47 utf-8,via curl - DUMP no2-47 CONTEXTE no2-47 CONTEXTE no2-47 18
    48 lien no48 200 HTTP/1.1 200 OK no2-48 utf-8,via curl - DUMP no2-48 CONTEXTE no2-48 CONTEXTE no2-48 9
    49 lien no49 200 HTTP/1.1 200 OK no2-49 utf-8,via curl - DUMP no2-49 CONTEXTE no2-49 CONTEXTE no2-49 6
    50 lien no50 200 HTTP/1.1 200 OK no2-50 utf-8,via curl - DUMP no2-50 CONTEXTE no2-50 CONTEXTE no2-50 10

    Au top


    Table no3(français)
    Lien Code CURL Statut CURL Page Aspirée Encodage Initial DUMP initial DUMP UTF-8 CONTEXTE UTF-8 CONTEXTE HTML UTF-8 Fq MOTIF
    1 lien no1 200 HTTP/1.1 200 OK no3-1 utf-8,via curl - DUMP no3-1 CONTEXTE no3-1 CONTEXTE no3-1 2
    2 lien no2 200 HTTP/1.1 200 OK no3-2 utf-8,via curl - DUMP no3-2 CONTEXTE no3-2 CONTEXTE no3-2 1
    3 lien no3 200 HTTP/1.1 200 OK no3-3 utf-8,via curl - DUMP no3-3 CONTEXTE no3-3 CONTEXTE no3-3 2
    4 lien no4 200 HTTP/1.1 200 OK no3-4 utf-8,via curl - DUMP no3-4 CONTEXTE no3-4 CONTEXTE no3-4 1
    5 lien no5 200 HTTP/1.1 200 OK no3-5 utf-8,via curl - DUMP no3-5 CONTEXTE no3-5 CONTEXTE no3-5 2
    6 lien no6 200 HTTP/1.1 200 OK no3-6 utf-8,via curl - DUMP no3-6 CONTEXTE no3-6 CONTEXTE no3-6 2
    7 lien no7 200 HTTP/1.1 200 OK no3-7 utf-8,via curl - DUMP no3-7 CONTEXTE no3-7 CONTEXTE no3-7 1
    8 lien no8 200 HTTP/1.1 200 OK no3-8 utf-8,via curl - DUMP no3-8 CONTEXTE no3-8 CONTEXTE no3-8 2
    9 lien no9 200 HTTP/1.1 200 OK no3-9 utf-8,via curl - DUMP no3-9 CONTEXTE no3-9 CONTEXTE no3-9 1
    10 lien no10 200 HTTP/1.1 200 OK no3-10 utf-8,via curl - DUMP no3-10 CONTEXTE no3-10 CONTEXTE no3-10 1
    11 lien no11 200 HTTP/1.1 200 OK no3-11 utf-8,via curl - DUMP no3-11 CONTEXTE no3-11 CONTEXTE no3-11 1
    12 lien no12 200 HTTP/1.1 200 OK no3-12 utf-8,via curl - DUMP no3-12 CONTEXTE no3-12 CONTEXTE no3-12 1
    13 lien no13 200 HTTP/1.1 200 OK no3-13 utf-8,via curl - DUMP no3-13 CONTEXTE no3-13 CONTEXTE no3-13 8
    14 lien no14 200 HTTP/1.1 200 OK no3-14 utf-8,via curl - DUMP no3-14 CONTEXTE no3-14 CONTEXTE no3-14 3
    15 lien no15 200 HTTP/1.1 200 OK no3-15 utf-8,via curl - DUMP no3-15 CONTEXTE no3-15 CONTEXTE no3-15 2
    16 lien no16 200 HTTP/1.1 200 OK no3-16 utf-8,via curl - DUMP no3-16 CONTEXTE no3-16 CONTEXTE no3-16 1
    17 lien no17 200 HTTP/1.1 200 OK no3-17 utf-8,via curl - DUMP no3-17 CONTEXTE no3-17 CONTEXTE no3-17 1
    18 lien no18 200 HTTP/1.1 200 OK no3-18 utf-8,via curl - DUMP no3-18 CONTEXTE no3-18 CONTEXTE no3-18 1
    19 lien no19 200 HTTP/1.1 200 OK no3-19 utf-8,via curl - DUMP no3-19 CONTEXTE no3-19 CONTEXTE no3-19 3
    20 lien no20 200 HTTP/1.1 200 OK no3-20 utf-8,via curl - DUMP no3-20 CONTEXTE no3-20 CONTEXTE no3-20 1
    21 lien no21 200 HTTP/1.1 200 OK no3-21 utf-8,via curl - DUMP no3-21 CONTEXTE no3-21 CONTEXTE no3-21 1
    22 lien no22 200 HTTP/1.1 200 OK no3-22 utf-8,via curl - DUMP no3-22 CONTEXTE no3-22 CONTEXTE no3-22 1
    23 lien no23 200 HTTP/1.1 200 OK no3-23 utf-8,via curl - DUMP no3-23 CONTEXTE no3-23 CONTEXTE no3-23 1
    24 lien no24 200 HTTP/1.1 200 OK no3-24 utf-8,via curl - DUMP no3-24 CONTEXTE no3-24 CONTEXTE no3-24 1
    25 lien no25 200 HTTP/1.1 200 OK no3-25 utf-8,via curl - DUMP no3-25 CONTEXTE no3-25 CONTEXTE no3-25 1
    26 lien no26 200 HTTP/1.1 200 OK no3-26 utf-8,via curl - DUMP no3-26 CONTEXTE no3-26 CONTEXTE no3-26 2
    27 lien no27 200 HTTP/1.1 200 OK no3-27 utf-8,via curl - DUMP no3-27 CONTEXTE no3-27 CONTEXTE no3-27 1
    28 lien no28 200 HTTP/1.1 200 OK no3-28 utf-8,via curl - DUMP no3-28 CONTEXTE no3-28 CONTEXTE no3-28 1
    29 lien no29 200 HTTP/1.1 200 OK no3-29 utf-8,via curl - DUMP no3-29 CONTEXTE no3-29 CONTEXTE no3-29 3
    30 lien no30 200 HTTP/1.1 200 OK no3-30 utf-8,via curl - DUMP no3-30 CONTEXTE no3-30 CONTEXTE no3-30 1
    31 lien no31 200 HTTP/1.1 200 OK no3-31 utf-8,via curl - DUMP no3-31 CONTEXTE no3-31 CONTEXTE no3-31 14
    32 lien no32 200 HTTP/1.1 200 OK no3-32 utf-8,via curl - DUMP no3-32 CONTEXTE no3-32 CONTEXTE no3-32 1
    33 lien no33 200 HTTP/1.1 200 OK no3-33 utf-8,via curl - DUMP no3-33 CONTEXTE no3-33 CONTEXTE no3-33 2
    34 lien no34 200 HTTP/1.1 200 OK no3-34 utf-8,via curl - DUMP no3-34 CONTEXTE no3-34 CONTEXTE no3-34 13
    35 lien no35 200 HTTP/1.1 200 OK no3-35 utf-8,via curl - DUMP no3-35 CONTEXTE no3-35 CONTEXTE no3-35 5
    36 lien no36 200 HTTP/1.1 200 OK no3-36 utf-8,via curl - DUMP no3-36 CONTEXTE no3-36 CONTEXTE no3-36 5
    37 lien no37 200 HTTP/1.1 200 OK no3-37 utf-8,via curl - DUMP no3-37 CONTEXTE no3-37 CONTEXTE no3-37 4
    38 lien no38 200 HTTP/1.1 200 OK no3-38 utf-8,via curl - DUMP no3-38 CONTEXTE no3-38 CONTEXTE no3-38 11
    39 lien no39 200 HTTP/1.1 200 OK no3-39 utf-8,via curl - DUMP no3-39 CONTEXTE no3-39 CONTEXTE no3-39 4
    40 lien no40 200 HTTP/1.1 200 OK no3-40 utf-8,via curl - DUMP no3-40 CONTEXTE no3-40 CONTEXTE no3-40 10
    41 lien no41 200 HTTP/1.1 200 OK no3-41 utf-8,via curl - DUMP no3-41 CONTEXTE no3-41 CONTEXTE no3-41 14
    42 lien no42 200 HTTP/1.1 200 OK no3-42 utf-8,via curl - DUMP no3-42 CONTEXTE no3-42 CONTEXTE no3-42 9
    43 lien no43 200 HTTP/1.1 200 OK no3-43 utf-8,via curl - DUMP no3-43 CONTEXTE no3-43 CONTEXTE no3-43 7
    44 lien no44 200 HTTP/1.1 200 OK no3-44 utf-8,via curl - DUMP no3-44 CONTEXTE no3-44 CONTEXTE no3-44 14
    45 lien no45 200 HTTP/1.1 200 OK no3-45 utf-8,via curl - DUMP no3-45 CONTEXTE no3-45 CONTEXTE no3-45 4
    46 lien no46 200 HTTP/1.1 200 OK no3-46 utf-8,via curl - DUMP no3-46 CONTEXTE no3-46 CONTEXTE no3-46 27
    47 lien no47 200 HTTP/1.1 200 OK no3-47 utf-8,via curl - DUMP no3-47 CONTEXTE no3-47 CONTEXTE no3-47 17
    48 lien no48 200 HTTP/1.1 200 OK no3-48 utf-8,via curl - DUMP no3-48 CONTEXTE no3-48 CONTEXTE no3-48 7
    49 lien no49 200 HTTP/1.1 200 OK no3-49 utf-8,via curl - DUMP no3-49 CONTEXTE no3-49 CONTEXTE no3-49 19
    50 lien no50 200 HTTP/1.1 200 OK no3-50 utf-8,via curl - DUMP no3-50 CONTEXTE no3-50 CONTEXTE no3-50 8
    51 lien no51 200 HTTP/1.1 200 OK no3-51 utf-8,via curl - DUMP no3-51 CONTEXTE no3-51 CONTEXTE no3-51 34
    52 lien no52 200 HTTP/1.1 200 OK no3-52 utf-8,via curl - DUMP no3-52 CONTEXTE no3-52 CONTEXTE no3-52 11
    53 lien no53 200 HTTP/1.1 200 OK no3-53 utf-8,via curl - DUMP no3-53 CONTEXTE no3-53 CONTEXTE no3-53 12
    54 lien no54 200 HTTP/1.1 200 OK no3-54 utf-8,via curl - DUMP no3-54 CONTEXTE no3-54 CONTEXTE no3-54 8
    55 lien no55 200 HTTP/1.1 200 OK no3-55 utf-8,via curl - DUMP no3-55 CONTEXTE no3-55 CONTEXTE no3-55 11
    56 lien no56 200 HTTP/1.1 200 OK no3-56 utf-8,via curl - DUMP no3-56 CONTEXTE no3-56 CONTEXTE no3-56 8
    57 lien no57 200 HTTP/1.1 200 OK no3-57 utf-8,via curl - DUMP no3-57 CONTEXTE no3-57 CONTEXTE no3-57 5
    58 lien no58 200 HTTP/1.1 200 OK no3-58 utf-8,via curl - DUMP no3-58 CONTEXTE no3-58 CONTEXTE no3-58 10
    59 lien no59 200 HTTP/1.1 200 OK no3-59 utf-8,via curl - DUMP no3-59 CONTEXTE no3-59 CONTEXTE no3-59 14
    60 lien no60 200 HTTP/1.1 200 OK no3-60 utf-8,via curl - DUMP no3-60 CONTEXTE no3-60 CONTEXTE no3-60 6
    61 lien no61 200 HTTP/1.1 200 OK no3-61 utf-8,via curl - DUMP no3-61 CONTEXTE no3-61 CONTEXTE no3-61 4
    62 lien no62 200 HTTP/1.1 200 OK no3-62 utf-8,via curl - DUMP no3-62 CONTEXTE no3-62 CONTEXTE no3-62 32
    63 lien no63 200 HTTP/1.1 200 OK no3-63 utf-8,via curl - DUMP no3-63 CONTEXTE no3-63 CONTEXTE no3-63 26
    64 lien no64 200 HTTP/1.1 200 OK no3-64 utf-8,via curl - DUMP no3-64 CONTEXTE no3-64 CONTEXTE no3-64 5
    65 lien no65 200 HTTP/1.1 200 OK no3-65 utf-8,via curl - DUMP no3-65 CONTEXTE no3-65 CONTEXTE no3-65 10
    66 lien no66 200 HTTP/1.1 200 OK no3-66 utf-8,via curl - DUMP no3-66 CONTEXTE no3-66 CONTEXTE no3-66 3
    67 lien no67 200 HTTP/1.1 200 OK no3-67 utf-8,via curl - DUMP no3-67 CONTEXTE no3-67 CONTEXTE no3-67 23
    68 lien no68 200 HTTP/1.1 200 OK no3-68 utf-8,via curl - DUMP no3-68 CONTEXTE no3-68 CONTEXTE no3-68 17
    69 lien no69 200 HTTP/1.1 200 OK no3-69 utf-8,via curl - DUMP no3-69 CONTEXTE no3-69 CONTEXTE no3-69 13
    70 lien no70 200 HTTP/1.1 200 OK no3-70 utf-8,via curl - DUMP no3-70 CONTEXTE no3-70 CONTEXTE no3-70 9
    71 lien no71 200 HTTP/1.1 200 OK no3-71 utf-8,via curl - DUMP no3-71 CONTEXTE no3-71 CONTEXTE no3-71 15
    72 lien no72 200 HTTP/1.1 200 OK no3-72 utf-8,via curl - DUMP no3-72 CONTEXTE no3-72 CONTEXTE no3-72 3
    73 lien no73 200 HTTP/1.1 200 OK no3-73 utf-8,via curl - DUMP no3-73 CONTEXTE no3-73 CONTEXTE no3-73 14
    74 lien no74 200 HTTP/1.1 200 OK no3-74 utf-8,via curl - DUMP no3-74 CONTEXTE no3-74 CONTEXTE no3-74 9
    75 lien no75 200 HTTP/1.1 200 OK no3-75 utf-8,via curl - DUMP no3-75 CONTEXTE no3-75 CONTEXTE no3-75 17
    76 lien no76 200 HTTP/1.1 200 OK no3-76 utf-8,via curl - DUMP no3-76 CONTEXTE no3-76 CONTEXTE no3-76 6
    77 lien no77 200 HTTP/1.1 200 OK no3-77 utf-8,via curl - DUMP no3-77 CONTEXTE no3-77 CONTEXTE no3-77 28
    78 lien no78 200 HTTP/1.1 200 OK no3-78 utf-8,via curl - DUMP no3-78 CONTEXTE no3-78 CONTEXTE no3-78 8
    79 lien no79 200 HTTP/1.1 200 OK no3-79 utf-8,via curl - DUMP no3-79 CONTEXTE no3-79 CONTEXTE no3-79 5
    80 lien no80 200 HTTP/1.1 200 OK no3-80 utf-8,via curl - DUMP no3-80 CONTEXTE no3-80 CONTEXTE no3-80 14
    81 lien no81 200 HTTP/1.1 200 OK no3-81 utf-8,via curl - DUMP no3-81 CONTEXTE no3-81 CONTEXTE no3-81 4
    82 lien no82 200 HTTP/1.1 200 OK no3-82 utf-8,via curl - DUMP no3-82 CONTEXTE no3-82 CONTEXTE no3-82 6
    83 lien no83 200 HTTP/1.1 200 OK no3-83 utf-8,via curl - DUMP no3-83 CONTEXTE no3-83 CONTEXTE no3-83 7
    84 lien no84 200 HTTP/1.1 200 OK no3-84 utf-8,via curl - DUMP no3-84 CONTEXTE no3-84 CONTEXTE no3-84 4
    85 lien no85 200 HTTP/1.1 200 OK no3-85 utf-8,via curl - DUMP no3-85 CONTEXTE no3-85 CONTEXTE no3-85 8
    86 lien no86 200 HTTP/1.1 200 OK no3-86 utf-8,via curl - DUMP no3-86 CONTEXTE no3-86 CONTEXTE no3-86 6
    87 lien no87 200 HTTP/1.1 200 OK no3-87 utf-8,via curl - DUMP no3-87 CONTEXTE no3-87 CONTEXTE no3-87 3
    88 lien no88 200 HTTP/1.1 200 OK no3-88 utf-8,via curl - DUMP no3-88 CONTEXTE no3-88 CONTEXTE no3-88 7
    89 lien no89 200 HTTP/1.1 200 OK no3-89 utf-8,via curl - DUMP no3-89 CONTEXTE no3-89 CONTEXTE no3-89 4
    90 lien no90 200 HTTP/1.1 200 OK no3-90 utf-8,via curl - DUMP no3-90 CONTEXTE no3-90 CONTEXTE no3-90 9
    91 lien no91 200 HTTP/1.1 200 OK no3-91 utf-8,via curl - DUMP no3-91 CONTEXTE no3-91 CONTEXTE no3-91 15
    92 lien no92 200 HTTP/1.1 200 OK no3-92 utf-8,via curl - DUMP no3-92 CONTEXTE no3-92 CONTEXTE no3-92 2
    93 lien no93 200 HTTP/1.1 200 OK no3-93 utf-8,via curl - DUMP no3-93 CONTEXTE no3-93 CONTEXTE no3-93 5
    94 lien no94 200 HTTP/1.1 200 OK no3-94 utf-8,via curl - DUMP no3-94 CONTEXTE no3-94 CONTEXTE no3-94 11
    95 lien no95 200 HTTP/1.1 200 OK no3-95 utf-8,via curl - DUMP no3-95 CONTEXTE no3-95 CONTEXTE no3-95 3
    96 lien no96 200 HTTP/1.1 200 OK no3-96 utf-8,via curl - DUMP no3-96 CONTEXTE no3-96 CONTEXTE no3-96 4
    97 lien no97 200 HTTP/1.1 200 OK no3-97 utf-8,via curl - DUMP no3-97 CONTEXTE no3-97 CONTEXTE no3-97 2
    98 lien no98 200 HTTP/1.1 200 OK no3-98 utf-8,via curl - DUMP no3-98 CONTEXTE no3-98 CONTEXTE no3-98 4
    99 lien no99 200 HTTP/1.1 200 OK no3-99 utf-8,via curl - DUMP no3-99 CONTEXTE no3-99 CONTEXTE no3-99 4
    100 lien no100 200 HTTP/1.1 200 OK no3-100 utf-8,via curl - DUMP no3-100 CONTEXTE no3-100 CONTEXTE no3-100 10
    101 lien no101 200 HTTP/1.1 200 OK no3-101 utf-8,via curl - DUMP no3-101 CONTEXTE no3-101 CONTEXTE no3-101 8

    Au top


    Table no4 (anglais)
    Lien Code CURL Statut CURL Page Aspirée Encodage Initial DUMP initial DUMP UTF-8 CONTEXTE UTF-8 CONTEXTE HTML UTF-8 Fq MOTIF
    1 lien no1 200 HTTP/1.1 200 OK no4-1 utf-8,via curl - DUMP no4-1 CONTEXTE no4-1 CONTEXTE no4-1 6
    2 lien no2 200 HTTP/1.1 200 OK no4-2 utf-8,via curl - DUMP no4-2 CONTEXTE no4-2 CONTEXTE no4-2 17
    3 lien no3 200 HTTP/1.1 200 OK no4-3 utf-8,via curl - DUMP no4-3 CONTEXTE no4-3 CONTEXTE no4-3 10
    4 lien no4 200 HTTP/1.1 200 OK no4-4 utf-8,via curl - DUMP no4-4 CONTEXTE no4-4 CONTEXTE no4-4 5
    5 lien no5 200 HTTP/1.1 200 OK no4-5 utf-8,via curl - DUMP no4-5 CONTEXTE no4-5 CONTEXTE no4-5 13
    6 lien no6 200 HTTP/1.1 200 OK no4-6 utf-8,via curl - DUMP no4-6 CONTEXTE no4-6 CONTEXTE no4-6 17
    7 lien no7 200 HTTP/1.1 200 OK no4-7 utf-8,via curl - DUMP no4-7 CONTEXTE no4-7 CONTEXTE no4-7 4
    8 lien no8 200 HTTP/1.1 200 OK no4-8 utf-8,via curl - DUMP no4-8 CONTEXTE no4-8 CONTEXTE no4-8 4
    9 lien no9 200 HTTP/1.1 200 OK no4-9 utf-8,via curl - DUMP no4-9 CONTEXTE no4-9 CONTEXTE no4-9 3
    10 lien no10 200 HTTP/1.1 200 OK no4-10 utf-8,via curl - DUMP no4-10 CONTEXTE no4-10 CONTEXTE no4-10 3
    11 lien no11 200 HTTP/1.1 200 OK no4-11 utf-8,via curl - DUMP no4-11 CONTEXTE no4-11 CONTEXTE no4-11 6
    12 lien no12 200 HTTP/1.1 200 OK no4-12 utf-8,via curl - DUMP no4-12 CONTEXTE no4-12 CONTEXTE no4-12 3
    13 lien no13 200 HTTP/1.1 200 OK no4-13 utf-8,via curl - DUMP no4-13 CONTEXTE no4-13 CONTEXTE no4-13 1
    14 lien no14 200 HTTP/1.1 200 OK no4-14 utf-8,via curl - DUMP no4-14 CONTEXTE no4-14 CONTEXTE no4-14 2
    15 lien no15 200 HTTP/1.1 200 OK no4-15 utf-8,via curl - DUMP no4-15 CONTEXTE no4-15 CONTEXTE no4-15 2
    16 lien no16 200 HTTP/1.1 200 OK no4-16 utf-8,via curl - DUMP no4-16 CONTEXTE no4-16 CONTEXTE no4-16 15
    17 lien no17 200 HTTP/1.1 200 OK no4-17 utf-8,via curl - DUMP no4-17 CONTEXTE no4-17 CONTEXTE no4-17 12
    18 lien no18 200 HTTP/1.1 200 OK no4-18 utf-8,via curl - DUMP no4-18 CONTEXTE no4-18 CONTEXTE no4-18 6
    19 lien no19 200 HTTP/1.1 200 OK no4-19 utf-8,via curl - DUMP no4-19 CONTEXTE no4-19 CONTEXTE no4-19 19
    20 lien no20 200 HTTP/1.1 200 OK no4-20 utf-8,via curl - DUMP no4-20 CONTEXTE no4-20 CONTEXTE no4-20 1
    21 lien no21 200 HTTP/1.1 200 OK no4-21 utf-8,via charset - DUMP no4-21 CONTEXTE no4-21 CONTEXTE no4-21 25
    22 lien no22 200 HTTP/1.1 200 OK no4-22 utf-8,via curl - DUMP no4-22 CONTEXTE no4-22 CONTEXTE no4-22 19
    23 lien no23 200 HTTP/1.1 200 OK no4-23 utf-8,via curl - DUMP no4-23 CONTEXTE no4-23 CONTEXTE no4-23 57
    24 lien no24 200 HTTP/1.1 200 OK no4-24 utf-8,via curl - DUMP no4-24 CONTEXTE no4-24 CONTEXTE no4-24 1
    25 lien no25 200 HTTP/1.1 200 OK no4-25 utf-8,via curl - DUMP no4-25 CONTEXTE no4-25 CONTEXTE no4-25 2
    26 lien no26 200 HTTP/1.1 200 OK no4-26 utf-8,via charset - DUMP no4-26 CONTEXTE no4-26 CONTEXTE no4-26 26
    27 lien no27 200 HTTP/1.1 200 OK no4-27 utf-8,via curl - DUMP no4-27 CONTEXTE no4-27 CONTEXTE no4-27 43
    28 lien no28 200 HTTP/1.1 200 OK no4-28 utf-8,via curl - DUMP no4-28 CONTEXTE no4-28 CONTEXTE no4-28 17
    29 lien no29 200 HTTP/1.1 200 OK no4-29 utf-8,via charset - DUMP no4-29 CONTEXTE no4-29 CONTEXTE no4-29 34
    30 lien no30 200 HTTP/1.1 200 OK no4-30 utf-8,via curl - DUMP no4-30 CONTEXTE no4-30 CONTEXTE no4-30 2
    31 lien no31 200 HTTP/1.1 200 OK no4-31 utf-8,via curl - DUMP no4-31 CONTEXTE no4-31 CONTEXTE no4-31 2
    32 lien no32 200 HTTP/1.1 200 OK no4-32 utf-8,via curl - DUMP no4-32 CONTEXTE no4-32 CONTEXTE no4-32 4
    33 lien no33 200 HTTP/1.1 200 OK no4-33 utf-8,via curl - DUMP no4-33 CONTEXTE no4-33 CONTEXTE no4-33 4
    34 lien no34 200 HTTP/1.1 200 OK no4-34 utf-8,via curl - DUMP no4-34 CONTEXTE no4-34 CONTEXTE no4-34 1
    35 lien no35 200 HTTP/1.1 200 OK no4-35 utf-8,via curl - DUMP no4-35 CONTEXTE no4-35 CONTEXTE no4-35 2
    36 lien no36 200 HTTP/1.1 200 OK no4-36 utf-8,via curl - DUMP no4-36 CONTEXTE no4-36 CONTEXTE no4-36 5
    37 lien no37 200 HTTP/1.1 200 OK no4-37 utf-8,via curl - DUMP no4-37 CONTEXTE no4-37 CONTEXTE no4-37 7
    38 lien no38 200 HTTP/1.1 200 OK no4-38 utf-8,via curl - DUMP no4-38 CONTEXTE no4-38 CONTEXTE no4-38 2
    39 lien no39 200 HTTP/1.1 200 OK no4-39 utf-8,via curl - DUMP no4-39 CONTEXTE no4-39 CONTEXTE no4-39 7
    40 lien no40 200 HTTP/1.1 200 OK no4-40 utf-8,via curl - DUMP no4-40 CONTEXTE no4-40 CONTEXTE no4-40 2
    41 lien no41 200 HTTP/1.1 200 OK no4-41 utf-8,via curl - DUMP no4-41 CONTEXTE no4-41 CONTEXTE no4-41 19
    42 lien no42 200 HTTP/1.1 200 OK no4-42 utf-8,via curl - DUMP no4-42 CONTEXTE no4-42 CONTEXTE no4-42 20
    43 lien no43 200 HTTP/1.1 200 OK no4-43 utf-8,via curl - DUMP no4-43 CONTEXTE no4-43 CONTEXTE no4-43 21
    44 lien no44 200 HTTP/1.1 200 OK no4-44 utf-8,via curl - DUMP no4-44 CONTEXTE no4-44 CONTEXTE no4-44 6
    45 lien no45 200 HTTP/1.1 200 OK no4-45 utf-8,via curl - DUMP no4-45 CONTEXTE no4-45 CONTEXTE no4-45 19
    46 lien no46 200 HTTP/1.1 200 OK no4-46 utf-8,via curl - DUMP no4-46 CONTEXTE no4-46 CONTEXTE no4-46 13
    47 lien no47 200 HTTP/1.1 200 OK no4-47 utf-8,via curl - DUMP no4-47 CONTEXTE no4-47 CONTEXTE no4-47 12
    48 lien no48 200 HTTP/1.1 200 OK no4-48 utf-8,via curl - DUMP no4-48 CONTEXTE no4-48 CONTEXTE no4-48 9
    49 lien no49 200 HTTP/1.1 200 OK no4-49 utf-8,via curl - DUMP no4-49 CONTEXTE no4-49 CONTEXTE no4-49 17
    50 lien no50 200 HTTP/1.1 200 OK no4-50 utf-8,via curl - DUMP no4-50 CONTEXTE no4-50 CONTEXTE no4-50 8
    51 lien no51 200 HTTP/1.1 200 OK no4-51 utf-8,via curl - DUMP no4-51 CONTEXTE no4-51 CONTEXTE no4-51 40
    52 lien no52 200 HTTP/1.1 200 OK no4-52 utf-8,via curl - DUMP no4-52 CONTEXTE no4-52 CONTEXTE no4-52 24
    53 lien no53 200 HTTP/1.1 200 OK no4-53 utf-8,via curl - DUMP no4-53 CONTEXTE no4-53 CONTEXTE no4-53 9
    54 lien no54 200 HTTP/1.1 200 OK no4-54 utf-8,via curl - DUMP no4-54 CONTEXTE no4-54 CONTEXTE no4-54 6
    55 lien no55 200 HTTP/1.1 200 OK no4-55 utf-8,via curl - DUMP no4-55 CONTEXTE no4-55 CONTEXTE no4-55 11
    56 lien no56 200 HTTP/1.1 200 OK no4-56 utf-8,via curl - DUMP no4-56 CONTEXTE no4-56 CONTEXTE no4-56 22
    57 lien no57 200 HTTP/1.1 200 OK no4-57 utf-8,via curl - DUMP no4-57 CONTEXTE no4-57 CONTEXTE no4-57 7
    58 lien no58 200 HTTP/1.1 200 OK no4-58 utf-8,via curl - DUMP no4-58 CONTEXTE no4-58 CONTEXTE no4-58 17
    59 lien no59 200 HTTP/1.1 200 OK no4-59 utf-8,via charset - DUMP no4-59 CONTEXTE no4-59 CONTEXTE no4-59 48
    60 lien no60 200 HTTP/1.1 200 OK no4-60 utf-8,via charset - DUMP no4-60 CONTEXTE no4-60 CONTEXTE no4-60 38
    61 lien no61 200 HTTP/1.1 200 OK no4-61 utf-8,via charset - DUMP no4-61 CONTEXTE no4-61 CONTEXTE no4-61 13
    62 lien no62 200 HTTP/1.1 200 OK no4-62 utf-8,via charset - DUMP no4-62 CONTEXTE no4-62 CONTEXTE no4-62 4
    63 lien no63 200 HTTP/1.1 200 OK no4-63 utf-8,via charset - DUMP no4-63 CONTEXTE no4-63 CONTEXTE no4-63 27
    64 lien no64 200 HTTP/1.1 200 OK no4-64 utf-8,via curl - DUMP no4-64 CONTEXTE no4-64 CONTEXTE no4-64 23
    65 lien no65 200 HTTP/1.1 200 OK no4-65 utf-8,via curl - DUMP no4-65 CONTEXTE no4-65 CONTEXTE no4-65 2
    66 lien no66 200 HTTP/1.1 200 OK no4-66 utf-8,via curl - DUMP no4-66 CONTEXTE no4-66 CONTEXTE no4-66 11
    67 lien no67 200 HTTP/1.1 200 OK no4-67 utf-8,via curl - DUMP no4-67 CONTEXTE no4-67 CONTEXTE no4-67 4
    68 lien no68 200 HTTP/1.1 200 OK no4-68 utf-8,via curl - DUMP no4-68 CONTEXTE no4-68 CONTEXTE no4-68 12
    69 lien no69 200 HTTP/1.1 200 OK no4-69 utf-8,via curl - DUMP no4-69 CONTEXTE no4-69 CONTEXTE no4-69 56
    70 lien no70 200 HTTP/1.1 200 OK no4-70 utf-8,via curl - DUMP no4-70 CONTEXTE no4-70 CONTEXTE no4-70 9
    71 lien no71 200 HTTP/1.1 200 OK no4-71 utf-8,via curl - DUMP no4-71 CONTEXTE no4-71 CONTEXTE no4-71 18
    72 lien no72 200 HTTP/1.1 200 OK no4-72 utf-8,via curl - DUMP no4-72 CONTEXTE no4-72 CONTEXTE no4-72 11
    73 lien no73 200 HTTP/1.1 200 OK no4-73 utf-8,via curl - DUMP no4-73 CONTEXTE no4-73 CONTEXTE no4-73 11
    74 lien no74 200 HTTP/1.1 200 OK no4-74 utf-8,via curl - DUMP no4-74 CONTEXTE no4-74 CONTEXTE no4-74 8
    75 lien no75 200 HTTP/1.1 200 OK no4-75 utf-8,via curl - DUMP no4-75 CONTEXTE no4-75 CONTEXTE no4-75 3
    76 lien no76 200 HTTP/1.1 200 OK no4-76 utf-8,via curl - DUMP no4-76 CONTEXTE no4-76 CONTEXTE no4-76 4
    77 lien no77 200 HTTP/1.1 200 OK no4-77 utf-8,via curl - DUMP no4-77 CONTEXTE no4-77 CONTEXTE no4-77 22
    78 lien no78 200 HTTP/1.1 200 OK no4-78 utf-8,via curl - DUMP no4-78 CONTEXTE no4-78 CONTEXTE no4-78 12
    79 lien no79 200 HTTP/1.1 200 OK no4-79 utf-8,via curl - DUMP no4-79 CONTEXTE no4-79 CONTEXTE no4-79 26
    80 lien no80 200 HTTP/1.1 200 OK no4-80 utf-8,via curl - DUMP no4-80 CONTEXTE no4-80 CONTEXTE no4-80 4
    81 lien no81 200 HTTP/1.1 200 OK no4-81 utf-8,via curl - DUMP no4-81 CONTEXTE no4-81 CONTEXTE no4-81 7
    82 lien no82 200 HTTP/1.1 200 OK no4-82 utf-8,via curl - DUMP no4-82 CONTEXTE no4-82 CONTEXTE no4-82 21
    83 lien no83 200 HTTP/1.1 200 OK no4-83 utf-8,via curl - DUMP no4-83 CONTEXTE no4-83 CONTEXTE no4-83 9
    84 lien no84 200 HTTP/1.1 200 OK no4-84 utf-8,via curl - DUMP no4-84 CONTEXTE no4-84 CONTEXTE no4-84 45
    85 lien no85 200 HTTP/1.1 200 OK no4-85 utf-8,via curl - DUMP no4-85 CONTEXTE no4-85 CONTEXTE no4-85 13
    86 lien no86 200 HTTP/1.1 200 OK no4-86 utf-8,via curl - DUMP no4-86 CONTEXTE no4-86 CONTEXTE no4-86 4
    87 lien no87 200 HTTP/1.1 200 OK PA n° 4-87 iso-8859-1,via charset DUMP no4-87 DUMP no4-87 CONTEXTE no4-87 CONTEXTE no4-87 53
    88 lien no88 200 HTTP/1.1 200 OK no4-88 utf-8,via curl - DUMP no4-88 CONTEXTE no4-88 CONTEXTE no4-88 18
    89 lien no89 200 HTTP/1.1 200 OK PA n° 4-89 us-ascii,via file DUMP no4-89 DUMP no4-89 CONTEXTE no4-89 CONTEXTE no4-89 25
    90 lien no90 200 HTTP/1.1 200 OK no4-90 utf-8,via curl - DUMP no4-90 CONTEXTE no4-90 CONTEXTE no4-90 2
    91 lien no91 200 HTTP/1.1 200 OK no4-91 utf-8,via curl - DUMP no4-91 CONTEXTE no4-91 CONTEXTE no4-91 26
    92 lien no92 200 HTTP/1.1 200 OK no4-92 utf-8,via curl - DUMP no4-92 CONTEXTE no4-92 CONTEXTE no4-92 25
    93 lien no93 200 HTTP/1.1 200 OK no4-93 utf-8,via curl - DUMP no4-93 CONTEXTE no4-93 CONTEXTE no4-93 15
    94 lien no94 200 HTTP/1.1 200 OK no4-94 utf-8,via curl - DUMP no4-94 CONTEXTE no4-94 CONTEXTE no4-94 19
    95 lien no95 200 HTTP/1.1 200 OK no4-95 utf-8,via curl - DUMP no4-95 CONTEXTE no4-95 CONTEXTE no4-95 5
    96 lien no96 200 HTTP/1.1 200 OK no4-96 utf-8,via curl - DUMP no4-96 CONTEXTE no4-96 CONTEXTE no4-96 28
    97 lien no97 200 HTTP/1.1 200 OK no4-97 utf-8,via curl - DUMP no4-97 CONTEXTE no4-97 CONTEXTE no4-97 3
    98 lien no98 200 HTTP/1.1 200 OK no4-98 utf-8,via curl - DUMP no4-98 CONTEXTE no4-98 CONTEXTE no4-98 12
    99 lien no99 200 HTTP/1.1 200 OK no4-99 utf-8,via curl - DUMP no4-99 CONTEXTE no4-99 CONTEXTE no4-99 2
    100 lien no100 200 HTTP/1.1 200 OK no4-100 utf-8,via curl - DUMP no4-100 CONTEXTE no4-100 CONTEXTE no4-100 2
    101 lien no101 200 HTTP/1.1 200 OK no4-101 utf-8,via curl - DUMP no4-101 CONTEXTE no4-101 CONTEXTE no4-101 2
    102 lien no102 200 HTTP/1.1 200 OK no4-102 utf-8,via curl - DUMP no4-102 CONTEXTE no4-102 CONTEXTE no4-102 37
    103 lien no103 200 HTTP/1.1 200 OK no4-103 utf-8,via curl - DUMP no4-103 CONTEXTE no4-103 CONTEXTE no4-103 17
    104 lien no104 200 HTTP/1.1 200 OK no4-104 utf-8,via curl - DUMP no4-104 CONTEXTE no4-104 CONTEXTE no4-104 14
    105 lien no105 200 HTTP/1.1 200 OK no4-105 utf-8,via curl - DUMP no4-105 CONTEXTE no4-105 CONTEXTE no4-105 27
    106 lien no106 200 HTTP/1.1 200 OK no4-106 utf-8,via curl - DUMP no4-106 CONTEXTE no4-106 CONTEXTE no4-106 7
    107 lien no107 200 HTTP/1.1 200 OK no4-107 utf-8,via curl - DUMP no4-107 CONTEXTE no4-107 CONTEXTE no4-107 11
    108 lien no108 200 HTTP/1.1 200 OK no4-108 utf-8,via curl - DUMP no4-108 CONTEXTE no4-108 CONTEXTE no4-108 17

    Au top


    Table no5(espagnol)
    Lien Code CURL Statut CURL Page Aspirée Encodage Initial DUMP initial DUMP UTF-8 CONTEXTE UTF-8 CONTEXTE HTML UTF-8 Fq MOTIF
    1 lien no1 200 HTTP/1.1 200 OK no5-1 utf-8,via curl - DUMP no5-1 CONTEXTE no5-1 CONTEXTE no5-1 13
    2 lien no2 200 HTTP/1.1 200 OK no5-2 utf-8,via curl - DUMP no5-2 CONTEXTE no5-2 CONTEXTE no5-2 3
    3 lien no3 200 HTTP/1.1 200 OK no5-3 utf-8,via curl - DUMP no5-3 CONTEXTE no5-3 CONTEXTE no5-3 9
    4 lien no4 200 HTTP/1.1 200 OK no5-4 utf-8,via curl - DUMP no5-4 CONTEXTE no5-4 CONTEXTE no5-4 21
    5 lien no5 200 HTTP/1.1 200 OK no5-5 utf-8,via curl - DUMP no5-5 CONTEXTE no5-5 CONTEXTE no5-5 9
    6 lien no6 200 HTTP/1.1 200 OK no5-6 utf-8,via curl - DUMP no5-6 CONTEXTE no5-6 CONTEXTE no5-6 4
    7 lien no7 200 HTTP/1.1 200 OK no5-7 utf-8,via curl - DUMP no5-7 CONTEXTE no5-7 CONTEXTE no5-7 18
    8 lien no8 200 HTTP/1.1 200 OK no5-8 utf-8,via curl - DUMP no5-8 CONTEXTE no5-8 CONTEXTE no5-8 3
    9 lien no9 200 HTTP/1.1 200 OK no5-9 utf-8,via curl - DUMP no5-9 CONTEXTE no5-9 CONTEXTE no5-9 8
    10 lien no10 200 HTTP/1.1 200 OK no5-10 utf-8,via curl - DUMP no5-10 CONTEXTE no5-10 CONTEXTE no5-10 4
    11 lien no11 200 HTTP/1.1 200 OK no5-11 utf-8,via curl - DUMP no5-11 CONTEXTE no5-11 CONTEXTE no5-11 5
    12 lien no12 200 HTTP/1.1 200 OK no5-12 utf-8,via curl - DUMP no5-12 CONTEXTE no5-12 CONTEXTE no5-12 11
    13 lien no13 200 HTTP/1.1 200 OK no5-13 utf-8,via curl - DUMP no5-13 CONTEXTE no5-13 CONTEXTE no5-13 5
    14 lien no14 200 HTTP/1.1 200 OK no5-14 utf-8,via curl - DUMP no5-14 CONTEXTE no5-14 CONTEXTE no5-14 15
    15 lien no15 200 HTTP/1.1 200 OK no5-15 utf-8,via curl - DUMP no5-15 CONTEXTE no5-15 CONTEXTE no5-15 21
    16 lien no16 200 HTTP/1.1 200 OK no5-16 utf-8,via curl - DUMP no5-16 CONTEXTE no5-16 CONTEXTE no5-16 7
    17 lien no17 200 HTTP/1.1 200 OK no5-17 utf-8,via curl - DUMP no5-17 CONTEXTE no5-17 CONTEXTE no5-17 16
    18 lien no18 200 HTTP/1.1 200 OK no5-18 utf-8,via curl - DUMP no5-18 CONTEXTE no5-18 CONTEXTE no5-18 9
    19 lien no19 200 HTTP/1.1 200 OK no5-19 utf-8,via curl - DUMP no5-19 CONTEXTE no5-19 CONTEXTE no5-19 5
    20 lien no20 200 HTTP/1.1 200 OK no5-20 utf-8,via curl - DUMP no5-20 CONTEXTE no5-20 CONTEXTE no5-20 22
    21 lien no21 200 HTTP/1.1 200 OK no5-21 utf-8,via curl - DUMP no5-21 CONTEXTE no5-21 CONTEXTE no5-21 12
    22 lien no22 200 HTTP/1.1 200 OK no5-22 utf-8,via curl - DUMP no5-22 CONTEXTE no5-22 CONTEXTE no5-22 5
    23 lien no23 200 HTTP/1.1 200 OK no5-23 utf-8,via curl - DUMP no5-23 CONTEXTE no5-23 CONTEXTE no5-23 2
    24 lien no24 200 HTTP/1.1 200 OK no5-24 utf-8,via curl - DUMP no5-24 CONTEXTE no5-24 CONTEXTE no5-24 3
    25 lien no25 200 HTTP/1.1 200 OK no5-25 utf-8,via curl - DUMP no5-25 CONTEXTE no5-25 CONTEXTE no5-25 4
    26 lien no26 200 HTTP/1.1 200 OK no5-26 utf-8,via curl - DUMP no5-26 CONTEXTE no5-26 CONTEXTE no5-26 6
    27 lien no27 200 HTTP/1.1 200 OK no5-27 utf-8,via curl - DUMP no5-27 CONTEXTE no5-27 CONTEXTE no5-27 13
    28 lien no28 200 HTTP/1.1 200 OK no5-28 utf-8,via curl - DUMP no5-28 CONTEXTE no5-28 CONTEXTE no5-28 17
    29 lien no29 200 HTTP/1.1 200 OK no5-29 utf-8,via curl - DUMP no5-29 CONTEXTE no5-29 CONTEXTE no5-29 4
    30 lien no30 200 HTTP/1.1 200 OK no5-30 utf-8,via curl - DUMP no5-30 CONTEXTE no5-30 CONTEXTE no5-30 11
    31 lien no31 200 HTTP/1.1 200 OK no5-31 utf-8,via curl - DUMP no5-31 CONTEXTE no5-31 CONTEXTE no5-31 5
    32 lien no32 200 HTTP/1.1 200 OK no5-32 utf-8,via curl - DUMP no5-32 CONTEXTE no5-32 CONTEXTE no5-32 2
    33 lien no33 200 HTTP/1.1 200 OK no5-33 utf-8,via curl - DUMP no5-33 CONTEXTE no5-33 CONTEXTE no5-33 3
    34 lien no34 200 HTTP/1.1 200 OK no5-34 utf-8,via curl - DUMP no5-34 CONTEXTE no5-34 CONTEXTE no5-34 15
    35 lien no35 200 HTTP/1.1 200 OK no5-35 utf-8,via curl - DUMP no5-35 CONTEXTE no5-35 CONTEXTE no5-35 8
    36 lien no36 200 HTTP/1.1 200 OK no5-36 utf-8,via curl - DUMP no5-36 CONTEXTE no5-36 CONTEXTE no5-36 10
    37 lien no37 200 HTTP/1.1 200 OK no5-37 utf-8,via curl - DUMP no5-37 CONTEXTE no5-37 CONTEXTE no5-37 6
    38 lien no38 200 HTTP/1.1 200 OK no5-38 utf-8,via curl - DUMP no5-38 CONTEXTE no5-38 CONTEXTE no5-38 6
    39 lien no39 200 HTTP/1.1 200 OK no5-39 utf-8,via curl - DUMP no5-39 CONTEXTE no5-39 CONTEXTE no5-39 10
    40 lien no40 200 HTTP/1.1 200 OK no5-40 utf-8,via curl - DUMP no5-40 CONTEXTE no5-40 CONTEXTE no5-40 8
    41 lien no41 200 HTTP/1.1 200 OK no5-41 utf-8,via curl - DUMP no5-41 CONTEXTE no5-41 CONTEXTE no5-41 14
    42 lien no42 200 HTTP/1.1 200 OK no5-42 utf-8,via curl - DUMP no5-42 CONTEXTE no5-42 CONTEXTE no5-42 6
    43 lien no43 200 HTTP/1.1 200 OK no5-43 utf-8,via curl - DUMP no5-43 CONTEXTE no5-43 CONTEXTE no5-43 8
    44 lien no44 200 HTTP/1.1 200 OK no5-44 utf-8,via curl - DUMP no5-44 CONTEXTE no5-44 CONTEXTE no5-44 4
    45 lien no45 200 HTTP/1.1 200 OK no5-45 utf-8,via curl - DUMP no5-45 CONTEXTE no5-45 CONTEXTE no5-45 2
    46 lien no46 200 HTTP/1.1 200 OK no5-46 iso-8859-15, via curl DUMP no5-46-1 DUMP no5-46-2 CONTEXTE no5-46 CONTEXTE no5-46 3
    47 lien no47 200 HTTP/1.1 200 OK no5-47 iso-8859-15, via curl DUMP no5-47-1 DUMP no5-47-2 CONTEXTE no5-47 CONTEXTE no5-47 11
    48 lien no48 200 HTTP/1.1 200 OK no5-48 iso-8859-15, via curl DUMP no5-48-1 DUMP no5-48-2 CONTEXTE no5-48 CONTEXTE no5-48 2
    49 lien no49 200 HTTP/1.1 200 OK no5-49 iso-8859-15, via curl DUMP no5-49-1 DUMP no5-49-2 CONTEXTE no5-49 CONTEXTE no5-49 3
    50 lien no50 200 HTTP/1.1 200 OK no5-50 iso-8859-15, via curl DUMP no5-50-1 DUMP no5-50-2 CONTEXTE no5-50 CONTEXTE no5-50 2
    51 lien no51 200 HTTP/1.1 200 OK no5-51 utf-8,via curl - DUMP no5-51 CONTEXTE no5-51 CONTEXTE no5-51 3
    52 lien no52 200 HTTP/1.1 200 OK no5-52 utf-8,via curl - DUMP no5-52 CONTEXTE no5-52 CONTEXTE no5-52 7
    53 lien no53 200 HTTP/1.1 200 OK no5-53 utf-8,via curl - DUMP no5-53 CONTEXTE no5-53 CONTEXTE no5-53 2
    54 lien no54 200 HTTP/1.1 200 OK no5-54 utf-8,via curl - DUMP no5-54 CONTEXTE no5-54 CONTEXTE no5-54 5
    55 lien no55 200 HTTP/1.1 200 OK no5-55 utf-8,via curl - DUMP no5-55 CONTEXTE no5-55 CONTEXTE no5-55 3
    56 lien no56 200 HTTP/1.1 200 OK no5-56 utf-8,via curl - DUMP no5-56 CONTEXTE no5-56 CONTEXTE no5-56 15
    57 lien no57 200 HTTP/1.1 200 OK no5-57 utf-8,via curl - DUMP no5-57 CONTEXTE no5-57 CONTEXTE no5-57 21
    58 lien no58 200 HTTP/1.1 200 OK no5-58 utf-8,via curl - DUMP no5-58 CONTEXTE no5-58 CONTEXTE no5-58 7
    59 lien no59 200 HTTP/1.1 200 OK no5-59 utf-8,via curl - DUMP no5-59 CONTEXTE no5-59 CONTEXTE no5-59 4
    60 lien no60 200 HTTP/1.1 200 OK no5-60 utf-8,via curl - DUMP no5-60 CONTEXTE no5-60 CONTEXTE no5-60 9

    Au top

    Le Trameur

    I.La présentation de Letrameur

    L'essentiel du travail d'analyse est établi à l'aide du programme "Le Trameur", qui permet une approche aussi bien textométrique que lexicométrique (données quantitatives et qualitatives). Il s'articule autour des notions de "Trame" et de "Cadre", c'est-à-dire le repérage des différents niveaux hiérarchiques d'éléments dans le corpus (découpage et indexation des unités) et la représentation de l'organisation globale du corpus à travers ces niveaux. Ou encore, comme l'explique le site du Trameur :

    La définition d'une Trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres, etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière, le Cadre textométrique.

    Du fait de ses très larges possibilités, le Trameur est un outil complet et complexe avec lequel il faut prendre le temps de se familiariser. Toutefois, la seule partie qui nous intéresse vraiment pour ce projet, c'est l'onglet "Cooc" qui gère les calculs des co-occurrents autour d'un "pôle" dans le corpus. Ce pôle bien sûr, ce sera notre motif et une fois définis les paramètres du calcul, on obtient la représentation des mots qui se rencontrent le plus fréquemment autour du motif (graphe de co-occurrents) ainsi qu'un tableau qui les liste.
    À signaler qu'il existe également une version en ligne du Trameur, iTrameur qui regroupe certaines fonctionnalités du programme, notamment les nuages de mots et les graphes de co-occurrents.


    II.Les résultats

    *cliquez pour l'image originale

    1). Chinois par Letrameur

    a.Sinogramme simplifié(CONTEXT)

    b.Sinogramme simplifié(DUMP)

    c.Sinogramme traditionnel(CONTEXT)

    d.Sinogramme traditionnel(DUMP)


    2). Chinois par Itrameur

    a.Sinogramme simplifié(CONTEXT)

    b.Sinogramme simplifié(DUMP)

    c.Sinogramme traditionnel(CONTEXT)

    **Dans l'image, on peut voir plusieurs pôles en tant que les dérivées de "壓力(stress)", mais on sait qu'un mot chinois n'a pas de dérivation. Donc pourquoi ce résultat? En fait, ce sont de faux mots dérivées qui sont effectivement des phrases, par exemple: un pôle est 應對壓力(se faire face au stress), c'est une phrase composant de deux mots: 應對(se faire face à) et 壓力(stress). Selon moi, ce problème est peut-être de l'origine du logiciel de segmentation qui segmente ces phrases comme un mot.

    d.Sinogramme traditionnel(DUMP)


    3).Anglais par letrameur

    a.DUMP


    4).Anglais par itrameur

    a.DUMP


    5).Français par letrameur

    a.DUMP


    4).Français par itrameur

    a.DUMP


    4).Espagnol par itrameur

    a.DUMP

    Nuages de mots

    I. Chinois

    Dans tous les quatre images, on peut trouver un caractère très pertinent:的, c'est une particule n'a pas de sens sémantique généralement, et c'est utilisée après un adjectif pour composer une unité ayant une fonction de qualifier. Ce sont le caractère le plus fréquenté dans le chinois.

    1).Nuages de Sinogramme simplifié(CONTEXT)

    Les mots les plus pertinents: 心理(psychologie),孩子(enfant),生活(vie),缓解(ralentir),影响(influencer),情况(situation),女性(femme),工作(travail),他们(ils),我们(nous),导致(conduire)


    2).Nuages de Sinogramme simplifié(DUMP)

    Les mots les plus pertinents: 我们(nous), 研究(recherches),考试(exament),学生(élève),高三(Terminal),时间(temps),孩子(enfant),情绪(sentiment),问题(problème),教育(éducation),焦虑(angoisse)


    3).Nuages de Sinogramme traditionnel(CONTEXT)

    Les mots les plus pertinents: 健康(santé),精神(esprit),問題(problème),考生(candidat à l'examen),面對(se faire face à),能力(compétence),認為(croire),因素(facteur),生活(vie),工作(travail),發現(découbrir)


    4).Nuages de Sinogramme traditionnel(DUMP)

    Les mots les plus pertinents: 問題(problème),心理(psychologie),影響(influencer),孩子(enfant),可能(possible),情緒(sentiment),認為(coire),焦慮(angoisse),工作(travail),生活(vie),需要(besoin)


    II. Français

    1).Nuages de français(DUMP)


    III. Anglais

    1).Nuages d'anglais(DUMP)


    IV. Espagnol

    1).Nuages d'espagnol(DUMP)

    Analyses


      Comme cela avait été prévu par nos enseignants, il ne nous aura pas été possible d'aller au bout des analyses que nous aurions voulu faire, faute de temps. Nous nous étions, il est vrai, donné des objectifs un peu ambitieux dans la méthodologie que nous avions préalablement définie. Il s'agissait initialement de croiser les résultats de quatre analyses différentes, dont deux utilisaient deux variantes des corpus (avec et sans les mots du champ lexical du stress) et les deux autres portaient sur la recherche de mots dans des constructions syntaxiques particulières. À défaut, nous nous contenterons de présenter les observations que nous pouvons déduire de la recherche des co-occurrents en comparant les données fournies par les quatres langues, c'est-à-dire le minimum de ce que l'on peut faire avec le Trameur mais aussi le cœur de ce qui est attendu du projet.

      Les premières conclusions à tirer concernent en fait la phase de nettoyage. Il n'est pas superflu de rappeler l'importance de cette étape, car elle est bien sûr déterminante pour les analyses. En fonction de la composition du filtre, on peut obtenir des résultats très différents ; il faut garder en tête qu'il n'est pas toujours possible d'éliminer toutes les "scories" que l'on souhaite, car à moins de dresser une liste exhaustive - ce qui revient au même que de purger manuellement le fichier - il faut recourir à des expressions régulières qui peuvent se montrer un peu "gourmandes" et l'on se retrouve avec un filtrage trop restrictif qui va même retirer du contenu que l'on aurait souhaité conserver. C'est une question d'ajustement, en fin de compte.

      Du point de vue de l'interprétation, il faut reconnaître que les résultats ne sont moins parlants qu'on aurait souhaité ; il aurait certainement été profitable de procéder à une analyse quantitative approfondie. En effet, le logiciel d'analyses, le Trameur, permet d'exporter différents formats de types de résultats. Afin de mitiger ces conclusions, il faut reconnaître que le choix de types d'URLs sélectionnées et les différences de tailles de corpus peuvent avoir une incidence sur la comparaison absolue des résultats entre eux ; nous nous estimons cependant satisfaits de constater l'aboutissement de notre travail à des données qui pour ainsi dire, parlent d'elles-même.



    I. Chinois

      Les sinogrammes simplifiés et sinogrammes traditionnels sont les deux ensembles de caractères standards du chinois écrit contemporain.Comme ces deux écritures sont utilisées par gens de différentes régions, j'analyse ces deux écritures séparemment en comparant l'un à l'autre.

    1.Les sinogrammes simplifiés

      Les sinogrammes simplifiés sont utilisés en République populaire de Chine et à Singapour. La simplification de sinogrammes commence dans les années 90s au but de faciliter leur apprentissage et à créer un alphabet phonétique à base de litres latines. La simplification des sinogrammes est définie par huit règles formulées par Qian Xuanton en 1992.

      Grace à ces règles, après la simplification, les caractères chinois gardent encore leurs caractéristiques, c’est pourquoi les utilisateurs de sinogrammes simplifiés peuvent reconnaître presque tous les sinogrammes traditionnels. Ce système de l’écriture tient une place importante dans la culture chinoise, parce que malgré les nombreuses langues parlées en Chine, les sinogramme simplifié restent très compréhensible par toute la population, donc on peut dire qu'ils symbolisent l’unité national.

    1.1 Sur Stress

      Quant au résultat à partir des fichiers contexte, les mots les plus fréquentés sont : 心理(psychologie), 影响(influence), 自己(soi-même), 导致(donduire à), 可能(possibilité), 如何(comment), 产生(produire), 问题(problème), selon ces mots, on peut découvrir que atour de mot clé, ce sont généralement des discussions sur ce problèmes:le domanie concerné est la psychologie, la discussion met l'accent sur les influences du stress, la cause du stress, et des hypothèses sur les possibilités des causes. Cepandent, on ne peut pas avoir une impression concrète sur le stress selon ce résultat :on ne sait aucun détail de discussion, mais on peut savoir que pour le stress, les chinois le prennent comme un problème psychologique personnel, et ils cherchent des faire des hypothèses pour résoudre ce problème et pour trouver les causes.

      Le résultat des fichiers Dump est plus intéressant, les mots les plus fréquentés sont bien différents que ceux du résultat de Contexte: 学生(élève),学校(école), 考(试)(examen),老师(enseignant), 同学(camarades),le résultat est très pertinent: le mot stress est mentionné le plus souvent pour les élèves chinois en raison des études, dans l'image de Wordclouds, on peut observer aussi des mots assez grands lié au thème d'étude: 教育(éducation), 高三(Terminale), 分数(points). Par conséquent, j'ai deux hypothèse pour ce résultat: les élèves chinois sont les gens les plus stressés en Chine; on se soucie le plus au problème du stress des enfants, et je suis portée à la dernière, puisque selon mes connaissances de la société de Chine, la conccurrence dans le domaine de travail est bien rigoureuse, et les adults ont aussi des problèmes du tress, mais par apport aux enfants, les adults ont plus de moyens à régler ce problème. De plus,la situation des élèves en Chine est un peu spéciale, la Chine est le pays le plus peuplé, chaque année des millions d'élèves participent au bac, et juste quelques dixaines milles de gens peuvent accéder à une université au premier niveau, pour des provinces très peuplé, le taux d'accès à une bonne université peut être 5%(Renminwang). D'une part, cette situation incite les enfant à travailler dur, d'une autre part, elle apporte le problème de stress.

    2.Les sinogrammes traditionnel

      Les sinogrammes traditionnels sont aujourd'hui utilisés à Hong Kong, Macao, Taïwan et certaines communautés chinoises expatriées, particulièrement celles originaires des pays précédemment cités ou qui émigrèrent avant la large adoption des caractères simplifiés dans la République Populaire de Chine.Pour ces régions les sites sont presque tous en utf-8, peut-être c'est parce que au 20e sciècle, elles ont plus de concatct avec les pays étrangers que la Chine continentale. Ça facilite la collection des ressources et le procédé d'analyse. Le seul problème est le logiciel de segmentation de Standford ne fonctionne pas très bien sur les sigogrammes traditionnel.

    2.2 Sur stress

      Dans le cas de sinogramme traditionnel, les résultats de Dump et de Contexte sont proches: le mot le plus fréquenté est "焦慮(angoisse)" qui est un entiment généralement causé par le tress, et il y a aussi des mots très fréquentés: 認為(penser), 面對(se faire face à), 研究(recherches), 健康(santé), un peu différent que dans les sinogrammes simplifiés qui traitent le stress dans le domaine de psychologie, le stress est plutôt un problème lié à la santé, et on peut aussi trouver l'occurence 患者(patient)dans le résultat, et je pense que à partir de ces occurrences, on peut observer que les gens ont une attitude positive au problème: ils choisissent se faire face au problème au lieu de le négliger, et il y a ausse des recherches sur ce problème, donc on peut savoir que les gens cherchent à comprendre ce problème ou à le résoudre. Les mots 考生(candidat à l'exament) 留學生(étudiant à l'étranger) sont aussi présentés dans la liste des occurrences les plus présentés, donc on peut savoir que les gens se concentrent plutôt aux élèves à l'étranger et à qui ont un examen, donc on peut supposer que les élèves ne sont pas généralement assez stressé que les élèves de Chine continentale parce que la société discute ce problème sur un groupe plus caractérisé.


    II. Français

      La notion de stress semble faire l’objet d’un certain nombre d’interrogations, on cherche à cerner des corrélations entre le stress et un certain nombre de paramètres (travail, âge, mode de vie..). On notera les co-occurents « travail », « employés », « jeunes », « ainés », « physique » (en examinant les contextes, on s’aperçoit qu’il s’agit de l’exercice physique, présenté comme un moyen de gérer son stress). Chose qui peut sembler plus étonnante, le stress est parfois vu comme quelque chose de « positif », il aurait des « bienfaits ». Cette attitude n’est pas partagée par tous, d’autres co-occurents de stress sont en effet « ravages » ou encore « mauvais ». D’autres adjectifs sont utilisés notamment « fatigués », « déprimés ». Comme pour l’espagnol, on retrouve également les co-occurents assez spécifiques « post » et « traumatique » qui composent l’expression post-traumatique. Dans ce corpus comme dans le corpus anglais, le co-occurent protéine apparaît, cela est sans doute dû à une découverte scientifique qui aurait fait l’objet d’articles au moment où nous avons constitué le corpus.

      Concernant les pôle stressant et stressante, on s’aperçoit que ce sont des moments particuliers (« situation », « événement », « période »...) qui entraînent un état de stress chez les personnes, il est probable que le caractère stressant attribué à ce moment provienne du fait qu’il requière un changement, une adaptation, ou qu’il soit vu comme une rupture avec une situation antérieure connue.


    III. Anglais


      L’analyse des co-occurents en anglais montre une volonté de comprendre le stress (« how », « When »). C’est un problème qui est examiné sous toutes les coutures, on cherche à en identifier les causes (« source », « cause ») et effets (« signs ») sur l’organisme, notamment à travers des études (« study »). Une grande part est faite à la terminologie médicale avec des termes comme corps (« body »), cerveau (« brain »), cancer, dépression, anxiété (anxiety), hormones. On ne trouve pas parmi les co-occurents de solution concrète pour être moins stressé (« reduce », « relieve), même si cette question semble être une préoccupation majeure. Le stress fait partie de la vie quotidienne (« common »), c’est quelque chose qu’il faut gérer (« deal », « manage »), mesurer (« levels »), combattre (« tackle »). Comme pour le français, on notera une co-occurrence entre « situations » et « events » qui accompagnent fréquemment « stressful ». De plus, on remarque une utilisation très fréquente de l’insistance avec « stressed out », et du verbe « feel », ces derniers montrent que le stress apparaît comme une réalité intrinsèquement lié au ressenti individuel et donc au champ des émotions.


    IV. Espagnol

      Parmi les mots les plus fréquents, on trouve des mots en lien avec la santé: "postraumático" (post-traumatique), "ansiedad" (anxiété), "salud" (santé), "crónico" (chronique), hormonas (hormones).Le stress est également associé au monde du travail, comme le montre la présence de "laboral". Comme pour le français, on retrouve la présence d'un adjectif indiquant le caractère positif du stress, "positiva". Le stress ne laisse pas indifférent, pour le qualifier l'un des mots les plus fréquents est l'adjectif fuente (fort), d'autres co-occurents comme "sufre" (souffre), "frustración" (frustration), "afecta" (affecte) rendent apparent à quel point le stress affectent les personnes qui en subissent les effets. Les co-occurents présents dans ce corpus semble cohérents avec ceux observés dans les corpus anglais et français, il y est également question de mesurer le stress comme l'indique "niveles" (niveau) et d'identifier ses causes comme le montre "provoca" (provoque).

      On peut trouver que le mot "ansiedad"(anxiété/angoisse) est très présent comme dans le cas de chinois en sinogramme traditionnel, et à partir des mots "doctor"(doctor),"enfermedades"(maladie) et "virale"(virale) on sait que dans l'espagnol le stress lié aussi au domaine de santé comme dans le chinois, et ça apporte généralement des effets négatifs. Le verbe "liberarte"(se libérer) est intéressant puisque on ne le trouve pas dans autres langues, peut-être les espagnols trouve que le tresse enchaiîne la liberté d'esprit.

      Les résultats de co-occurrents en espagnol semblent très cohérents en comparaison avec les autres langues (santé, . On retrouve un vocabulaire essentiellement psychologique, qui exprime des notions liées aux émotions, au ressenti (frustration, trouble, anxiété). La notion de travail est également fortement associée au stress - sans trop de surprise - au travers de l'adjectif laboral ("relatif au travail, professionnel") qui est toujours dans les valeurs de fréquence les plus élevées. L'aspect toutefois le plus saillant de ces données consiste en la récurrence de termes issus du domaine scientifique (post-traumatique, chronique, symptômes)  il est normal de retrouver une préoccupation liée à la santé et au caractère médical de la présence du stress mais on remarque que certains de ces termes renvoient à l'idée d'évaluation (niveau, réponse, positif, élevé) ou de quantification (certain, trop). Il est intéressant aussi d'observer qu'en ce qui concerne la catégorie grammaticale des verbes, on retrouve aussi bien des marqueurs de l'état du patient (affecter, souffrir) que de la guérison (en particulier, se libérer). Enfin, en moindre proportion on trouve des termes qui renvoient à l'aspect causal (provoquer, source)./p>

    Qui sommes nous ?


    Mengwei YANG

    Étudiante chinoise de Master I TAL à Paris 3, j'ai fait avant Master LFA(langue française appliquée) à Paris IV. Dans ce projet, je fait la partie d'analyse du chinois(sinogramme traditionnel/sinogramme simplifié) et du site.

    Langues: chinois, anglais, français

    Voir le profil de Mengwei Yang sur LinkedIn

    Marine COURTIN

    Je suis en M1 TAL à Paris 3, auparavant j'ai fait une licence d'anglais (LLCE) à l'Université de Rennes 2. Pour ce projet, je me suis occupée de l'analyse des corpus en anglais et en français.

    Langues: anglais, français


    Laurent LEVY

    étudiant en M1 TAL inscrit à l'université de Nanterre-Paris X. A suivi un parcours d'étude allant de la grammaire comparée à la linguistique générale. S'est occupé des analyses en espagnol et français.

    Langues: anglais, français