La vie multilingue de "stress"

Dans le cadre de la formation pluriTAL 2016-2017, notre groupe de travail a choisi comme sujet du projet de premier semestre de traiter la notion de "stress". Pour résumer le contenu du projet, il suffit de décrire les différentes étapes que nous avons parcourues depuis ces derniers mois:

◍ Récolter manuellement des pages web contenant une ou plusieurs occurrences du thème choisi (le "motif")

◍ Élaborer un script en langage bash

◍ Analyser le résultat par "Le Trameur", développé par notre enseignant, M. Serge Fleury.

◍ Élaborer un site montrant nos résultats.

Notre projet se fait en quatre langues et cinq écritures:

Méthodes

Étapes

Choix d’un thème sur lequel travailler
Constitutions de fichiers d’URLs
Réalisation d’un script en bash

aspiration des pages
dump des contenus textuels
récupération de l’encodage suivi d’un transcodage si nécessaire
création de contextes textuels et html (merci minigrep)
écriture des résultats dans un tableau html

Segmentation des textes en chinois avec Stanford Word Segmenter
Utilisation du logiciel le Trameur et d’iTrameur

graphes de co-occurences
(optionnel) récupérer les fichiers statistiques qu’on pourra utiliser pour créer les nuages de mots

Création de nuages de mots
Réalisation de ce site web, pour présenter nos résultats (ce qui a demandé un apprentissage des langages html et css)

Outils

1.LeTrameur

Le Trameur est un logiciel de textométrie, nous l’avons principalement utilisé afin de repérer les co-occurents des mots en lien avec le stress. Cette étape nous a également permis de nous rendre compte de l’importance des données collectées. Les dumps des articles étaient pollués par un certain nombre de données textuelles qui ne présentait pas d’intérêt pour nous (menus de navigation des pages web, listes d’articles mis en avant sur la page...). L’analyse avec le Trameur nous a montré qu’afin d’obtenir des analyses satisfaisantes, il est nécessaire de nettoyer les fichiers constituant notre corpus (automatiquement, de préférence).

2.Le choix des URLS

Nous avons choisi de collecter des URLs d’articles de presse, afin de constituer un corpus plus homogène. Pour constituer le corpus en anglais, les sites ont été sélectionnés en faisant attention à varier les régions

3.Le nuage des mots

Pour créer les nuages de mots, nous avons utilisé plusieurs outils: WordItOut, Word cloud generator

4.Segmentation du chinois

Le chinois est une langue très différente que les langues européennes, parce qu'il y pas de espaces entre les mots, donc quand on analyse le chinois il faut segmenter les mots en avance. Pour la segmentation, c'est Marine qui a trouvé l'outil Stanford Word Segmenter. C'est un logiciel développé par Université Stanford qui est le leader dans le domaine de TAL, donc c'est un outil très fiable, cependant, il reste encore des mots mal séparés, sa performance est moins pertinente sur le sinogramme traditionnel :il a y des faux mots, c'est-à-dire des phrasés sont traités comme des mots, ça influence un peu le résultat.

5.Langage Bash

C'est une sorte de boîte à outils, très puissante mais aussi très exigeante, qui nous est proposée pour faire nos premiers pas en programmation. Le Bash (Bourne-Again SHell), langage du shell UNIX, permet de travailler en ligne de commande ou bien dans des programmes élementaires constitués de commandes de ce langage, les scripts. Pourtant, ce langage n'a pas toujours très bonne presse auprès des programmeurs : peu portable, pas assez abstrait (ses données sont réputées "non typées"), il souffre de la comparaison avec les langages dédiés à la programmation tels que la famille des C, le Javascript, le Python et consorts qui sont effectivement plus spécialisés, donc plus puissants. Pourtant, cela reste un outil très pratique qui a connu une évolution progressive au cours de ses diverses versions, et pour peu qu'on soit assez familier avec ses subtilités, il sait se montrer très utile, un peu à la manière d'un couteau suisse.
Une alternative était de recourir au programme "Gromoteur" développé par M. Kim Gerdes, un autre de nos enseignants. C'est un peu le nec plus ultra par rapport à nos besoins, car il fonctionne de manière similaire et donne des résultats beaucoup plus avancés, avec toutes sortes de pré-traitements ; nous avons cependant préféré la démarche "do it yourself" consistant à mettre en place nos propres outils rudimentaires pour tenter d'aboutir à des résultats à peu près équivalents.

6.Le script

Comme c'est la première fois d'écrire un programme, au début c'est très difficile :les commandes inconnues, le script d'exemple a l'air très compliqué...Pour moi, le plus important est de comprendre le script, construire un diagramme pour le script est un bon choix, il nous aide de comprendre la logique(cliquez pour l'agrandir):

Puis il faut trouver un bon éditeur à écritre notre propre script, et j'ai utilisé textewrangle au début, ça m'a apporté des difficultés : pas de mémoire des noms de variables, pas de couleurs à distinguer commandes et variables...Après, j'ai connu Atom qui est un éditeur pas mal, un bon éditeur facilite beaucoup le travail.

7.Le site

C'est aussi la première fois de construire un site. Ça semble peut-être que c'est facile puisqu'on peut trouver pas mal de modèles de site sur Internet, ce que l'on doit faire est juste d'ajouter le contenu. Mais juste comme le script de bash, il faut comprendre le script de modèle en avance pour qu'on puisse ajouter le contenu dans la bonne place d'une bonne manière, de plus, si on veux ajouter styles, il faut apprendre plus de commandes de CSS et HTML, par exemple, j'ai dépensé beaucoup de temps à trouver une façon de mettre le script dans une page web, de plus, plein de détails à régler et à vérifier. Heureusement il y a un site qui donne des instructions de connaissances de construction de site web: W3School

8.Problème des sites chinois

A partir du tableau de sinogrammes simplifiés, on observe que les encodages de presque une moitié des sites sont gb2312, c’est bien différent que la situation des sites en autres langues, y compris les sites de sinogrammes traditionnels: leurs encodages sont presque tous utf-8.

GB2312 est le nom Internet enregistré pour un jeu de caractères officiels de la République populaire de Chine, utilisé pour les caractères chinois simplifiés, publié en 1985. GB est l'abréviation de Guojia Biaozhun, qui signifie Standard National en chinois. Alors que GB2312 couvre plus de 99% des caractères de l'usage contemporain, des textes historiques et de nombreux noms restent hors de portée. Mais pour les sites de presse ou de nouvelles, ça déjà suffit. Les caractères dans GB2312 sont disposés dans une grille 94x94 (comme dans ISO 2022), et le codepoint à deux octets de chaque caractère est exprimé dans la forme kuten (ou quwei), qui spécifie une rangée (ku ou qu) et la position de la Caractère dans la ligne (cellule, ten ou wei).Donc on sait que dans GB2312, un caractère tient deux octets.

L'encodage UTF-8 est apparu en 1996, c'est un codage de caractères informatiques conçu pour coder l'ensemble des caractères du "répertoire universel de caractères codés", défini par Unicode. UTF-8 est un encodage de longeur variante, c'est-à-dire que les longeurs de code sont diférentes, pour les caractères chinois, chaque caractère utilise généralement 3 octets, et pour des caractères plus anciens rarement utilisé, ils utilisent eventuellement 4 octets.

En comparant encodage UTF-8 et GB2312, on peut trouver la raison de l'utilisation populaire de GB2312 en Chine: GB2312 correspond aux besoins d'utilisation quotidienne en utilisant moins d'octets pour chaque caractère que UTF-8(GB2312: 2octets/caractère, UTF-8 3octets/caractère); d'autre côté, GB2312 est apparu plus tôt que UTF-8, donc il y a des sites construits avant 1996 qui préfèrent de continuer utiliser l'encodage qu'ils utilisent depuis longtemps, pour un grand site web, c'est difficide de changer l'encodage.

9.Les spécificités du script synthétique

Notre intention était de se réapproprier le programme générique construit sur la base fournie par les enseignants et de présenter quelque chose d'un peu plus personnel qui permettrait aussi d'utiliser les spécificités de Bash. Et nous avons plutôt réussi cette tâche, semble-t-il, puisque le second script fonctionne tout autant. Il sera certes plus ardu à comprendre, car il met en pratique des éléments un peu avancé de la syntaxe Bash, mais en même temps, la compréhension de la structure sous-jacente paraît moins compliquée, justement grâce à cet effort de synthèse.
Plusieurs points distinguent cette seconde version :

Il ne s'agit plus d'un programme interactif. Plutôt que de saisir les paramètres au clavier après le lancement du script, il faut un fichier d'initialisation qui contient deux lignes avec les informations en question : l'emplacement du fichier d'URLs sur la machine et le motif (pour en compter les occurrences); la première section du corps du programme consiste à vérifier qu'il y a bien un et un seul argument passé au script en ligne de commande qui pointe vers un fichier lisible et conforme. Si toutes ces conditions sont vérifiées, le script s'exécute normalement en affichant sur la console des messages sur le traitement de chaque URL, puis termine avec quelques lignes de résultat et renvoie un code de sortie 0 qui indique que tout s'est déroulé correctement.
En ce qui concerne l'aspect synthétique, il repose principalement sur la simplification de la structure logique du script initial ; en effet, celui-ci propose une série de tests sur chaque URL pour vérifier successivement si l'aspiration de la page s'est bien passée, si l'encodage d'origine a été reconnu et si c'est de l'UTF-8 ou non. La plupart de ces tests sont imbriqués les uns dans les autres avec des blocs correspondants de lignes de résultats, si bien que la structure générale du script d'origine est plutôt lourde et difficile à appréhender. Notre parti pris pour résoudre ce problème a été de tout simplifier en recourant à des fonctions et des variables (on a tout "paramétrisé").
La première fonction sert à vérifier l'encodage d'un fichier passé en argument et renvoie la variable contenant cette information ; il faudrait toutefois l'améliorer car elle repose sur le résultat de la commande 'file' qui n'est pas toujours très fiable.
La seconde regroupe tous les traitements de sortie qui permettent de récupérer le contenu textuel de la page web ciblée, l'intégrer au corpus, compter les occurrences du motif et donner l'index (liste de tous les mots du texte et leur fréquence absolue).
Les tests successifs sont remplacés par une instruction de branchement 'case' qui vérifie le résultat de la fonction d'encodage et selon les trois cas de figure possibles (pas reconnu/UTF-8/autre), effectue les traitements nécessaires : l'écriture des résultats dans le tableau final et le cas échéant, la conversion au format UTF-8 et l'ajout des données au corpus. Du coup, le bloc qui génère une nouvelle ligne du tableau n'apparaît qu'une fois dans le script en fonction du branchement.
En dernier lieu, cette version alternative traite un peu différemment l'arborescence du projet dans la mesure où elle vérifie la présence des dossiers de résultats (aspirées, dumps, contextes et tableaux) et les crée si besoin. Elle ne regroupe pas tous les résultats dans un tableau unique mais en ajoute un par fichier d'URLs traité et ajoute les fichiers aspirée, dump et contexte de chaque URL dans un dossier de résultats identifié par fichier d'URLs (les fichiers d'index sont placés dans le même dossier que les dumps); de même, les noms de fichier ont été un peu plus explicités que les simples références à leur valeur d'indexation. La mise en forme des tableaux est aussi un peu différente : la colonne "dump initial" a été supprimée car rendue obsolète, comme celle de "statut curl", jugée redondante et on a rajouté deux lignes de résultats avec les liens vers les fichiers globaux ainsi que le nombre total d'occurrences relevées.

10.Le script "nettoyeur"

C'est l'outil le plus rudimentaire mais il a le mérite d'accomplir soigneusement sa tâche. Il purge le corpus en éliminant ce qu'on lui demande et accepte des expressions régulières (du moins celles reconnues par 'sed' car il est construit autour de cette commande). Dans les fichiers de dump global, il peut y avoir en effet beaucoup d'informations inutiles et de toute façon il est impératif, avant d'entamer les analyses, d'éliminer toutes sortes de mots grammaticaux (articles, pronoms, prépositions, etc.) qui pourraient fortement compromettre les résultats. Le script fonctionne de la manière suivante : on indique le fichier cible comme argument du script et on obtient en sortie deux nouveaux fichiers, un pour le fichier filtré et un fichier "crible" qui contient l'ensemble des formes supprimées dans le fichier source (qui reste intact).
Une particularité de ce script est qu'il comprend un document embarqué (Here-document) qu'il faut modifier pour constituer le filtre. En gros, il faut écrire spécifiquement le mot ou l'expression régulière que l'on veut nettoyer dans un espace prévu à cet effet (entre les lignes "LISTE_FILTRE"). Concrètement, nous avons dû procéder par affinements successifs pour constituer la liste de formes à filtrer ; il s'est avéré particulièrement pratique de partir d'un nuage de mots du dump global et de relever tout ce qui semblait superflu, et on a encore augmenté la liste en utilisant les premiers résultats donnés par le Trameur et en parcourant manuellement l'ensemble du document. Il est donc pratique de conserver cette liste dans un autre fichier qu'il suffit de copier-coller dans le script. Et voilà !
Le seul petit inconvénient, si l'on excepte le fait qu'il faut modifier la partie filtre du script à chaque usage au lieu de passer un fichier en argument, est qu'il est impératif de lancer le script depuis le même dossier que celui où se trouve le fichier cible.

Difficultés essentiels rencontrées :

Résoudre les problèmes d’encodage

Segmenter les corpus en chinois

Nettoyer les fichiers dumps pour enlever des informations superflues (résolu en partie seulement)

Problèmes engendrés à cause des différents systèmes d'exploitation: Windows, MacOs, Ubuntu

Scripts

Vous pouvez voir nos scripts ici et les télécharger.

Le script de Mengwei

Le script de Marine

Le script de Laurent

*Pour voir les lignes longues il faut glisser vers droite.

Le script de Mengwei

Comme je travaille sur Mac pendant que les professeurs nous a donnés l'exemplaire de script de Windows, j'ai renconté beaucoup de problèmes sur les commandes,donc j'ai souvent cherché des solutions sur Internet donc il y a peut-être des commandes un peu différentes. J'ai insérer le procédé de concanétation des textes dans mon script puisque le programme de concaténation ne fonctionne pas sur mon ordianateur.

#!/bin/bash
    #--read files--#
    read folder
        read tablefileread motifecho "le dossier d'URLS sont: ${folder}"echo "le fichier contenant le tableau est: ${tablefile}"echo "le modif est: ${motif}"nomtable=1#--write the style of table--#echo "<html><head><style>p{text-align:center;}hr{color:red;width=80%;}table{margin-left:10%; width:80%;text-align:center;border-style:solid;border-width:1px;border-color:grey;}tr{text-align:center;}td{text-align:center;border-style:solid;border-width:1px;border-color:grey;}</style></head><body>">${tablefile}#--first boucle for every file,each file has a table--#for file in `ls ${folder}`{#--the title of table--#	nomurl=1	echo "${file}"	echo "<p><hr /></p>">> ${tablefile}	echo "<table>">> ${tablefile}	echo "<tr><td colspan=\"11\">Table n<sup>o</sup>${nomtable}</td></tr>">> ${tablefile}	echo "<tr>	<td><b>N&deg</b></td>	<td><b>Lien</b></td>	<td><b>Code CURL</b></td>	<td><b>Statut CURL</b></td>	<td><b>Page Aspir&eacute;e</b></td>	<td><b>Encodage Initial</b></td>	<td><b>DUMP initial</b></td>	<td><b>DUMP UTF-8</b></td>	<td><b>CONTEXTE UTF-8</b></td>	<td><b>CONTEXTE HTML UTF-8</b></td>	<td><b>Fq MOTIF</b></td>	</tr>">> ${tablefile}#--strat to analyse each lien in a file--#	for url in `cat ${folder}/${file}`	{	echo ${url}	echo "Techecharement de ${line} vers ./PAGES-ASPIREES/${nomtable}-${nomurl}.html"	curl ${url} -o ./Pages-ASPIREES/"${nomtable}-${nomurl}".html	b=$?	echo ${b}	echo "CODE RETOUR CURL: $?"#--vérifier l'execusion par $?--if 0, telechargement succes, else return the error message#		if [ $b = 0 ];		then echo "telechargement reussite"        statu1=$(curl -sI ${url} | head -1)        statu2=$(curl --silent --output ./PAGES-ASPIREES/"${nomtable}-${nomurl}".html --write-out "%{http_code}" ${url})        encodage=$(curl -sI ${url}|egrep -i "charset=" | cut -f2 -d= | tr -d "\n" | tr -d "\r"| tr "[:upper:]" "[:lower:]")        echo "Encodage $url : $encodage"#--it's possible that the curl can't work,so we should use other methods to get the encodage, first choice is "egrep", then "file" which is the last choice--#            if [ ! -n "$encodage"  ];            then            encodage=$(egrep -iom 1 "charset *=[^ \>]+" ./PAGES-ASPIREES/"${nomtable}-${nomurl}".html | cut -d= -f 2 | tr -d "\"" | tr -d "\n" | tr -d "\r" | tr -d "\'" | tr -d "\/" | tr "[:upper:]" "[:lower:]")            type='via egrep'            echo $encodage                if [ ! -n "$encodage"  ]                then                encodage=$(file -I ./PAGES-ASPIREES/"${nomtable}-${nomurl}".html | cut -d= -f2)                type='via file'                echo $encodage                    if [ ! -n "$encodage"  ]                    then                    echo "encodage est impossible a detecte"fi                else                echo "encodage est detecte dans egrep: $encodage"                fi            else            type='via curl'            echo "success, encodage est: $encodage"            fi#--the test for utf-8, if the encodage of the site is utf8, wo can analyse the content directly, else we CONVERTIR the original encodage to utf-8--#        if [ $encodage = 'utf-8' ];        then            echo "DUMP de $url via lynx"            lynx -dump -nolist -assume_charset=${encodage} -display_charset="UTF-8" ${url} > ./DUMP-TEXT/"$nomtable-$nomurl".txt            echo "<t=$nomtable-$nomurl.txt>">>./DUMP-TEXT/"concatenationDUMP_$nomtable".txt            lynx -dump -nolist -assume_charset=${encodage} -display_charset="UTF-8" ${url} >> ./DUMP-TEXT/"concatenationDUMP_$nomtable".txt            egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl".txt>./CONTEXTES/"$nomtable-$nomurl".txt            echo "<t=$nomtable-$nomurl.txt>">>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt            egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl".txt>>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt            nbmotif=$(egrep -coi $motif ./DUMP-TEXT/"$nomtable-$nomurl".txt)            perl minigrep/minigrepmultilingue.pl UTF-8 DUMP-TEXT/"$nomtable-$nomurl".txt minigrep/motif.txt            mv resultat-extraction.html ./CONTEXTES/"$nomtable-$nomurl".html            echo $nbmotif            echo "ECRITURE RESULTAT dans le tableau"            echo "<tr>            <td>${nomurl}</td>            <td><a href="${url}">lien n<sup>o</sup>$nomurl</a></td>            <td>${statu2}</td>            <td><small>${statu1}</small></td>            <td><a href='./PAGES-ASPIREES/${nomtable}-${nomurl}.html'>n<sup>o</sup>${nomtable}-${nomurl}</a></td>            <td>${encodage},$type</td>            <td>-</td>            <td><a href='./DUMP-TEXT/$nomtable-$nomurl.txt'>DUMP n<sup>o</sup>$nomtable-$nomurl</a></td>            <td><a href='./CONTEXTES/$nomtable-$nomurl.txt'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>            <td><a href='./CONTEXTES/$nomtable-$nomurl.html'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>            <td>$nbmotif</td>            </tr>" >>${tablefile}#--the problem of the no utf-8 site is that it's possible its encodage dosen't exist in iconv list, so it needs to verify, then do the iconv--#        else            newencodage=`tr '[a-z]' '[A-Z]' <<<"$encodage"`            iconv -l | egrep $newencodage            x=$?            echo $x                if [ $x = 1 ];                then                    echo "encodage existe pas dans iconv"                    echo "ECRITURE RESULTAT dans le tableau"                    echo "<tr>                    <td>${nomurl}</td>                    <td><a href="${url}">lien n<sup>o</sup>$nomurl</a></td>                    <td>${statu2}</td>                    <td><small>${statu1}</small></td>                    <td><a href='./PAGES-ASPIREES/${nomtable}-${nomurl}.html'>n<sup>o</sup>${nomtable}-${nomurl}</a></td>                    <td>${encodage}</td>                    <td>-</td>                    <td>-</td>                    <td>-</td>                    <td>-</td>                    </tr>" >>${tablefile}                else                    echo "encodage detecte"                    #problem                    lynx -dump -nolist -assume_charset=$encodage -display_charset=$encodage $url >./DUMP-TEXT/"$nomtable-$nomurl-1".txt                    #file pas assez fiable, uilise pas file pour les sites chinois qui utilise gb2312                     #filencodage=$file -I ./DUMP-TEXT/"$nomtable-$nomurl-1".txt | cut -d= -f2)                    #echo $filencodage                    iconv -f $encodage -t UTF-8 ./DUMP-TEXT/$nomtable-$nomurl-1.txt >./DUMP-TEXT/$nomtable-$nomurl-2.txt                    echo "<t=$nomtable-$nomurl-2.txt>">>./DUMP-TEXT/"concatenationDUMP_$nomtable".txt                    iconv -f $encodage -t UTF-8 ./DUMP-TEXT/$nomtable-$nomurl-1.txt >>./DUMP-TEXT/"concatenationDUMP_$nomtable".txt                    #encodageconv=$(file -I ./DUMP-TEXT/$nomtable-$nomurl-2.txt)                    #echo $encodageconv                    egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl-2".txt>./CONTEXTES/"$nomtable-$nomurl".txt                    echo "<t=$nomtable-$nomurl.txt>">>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt                    egrep -i -C 2 --color $motif ./DUMP-TEXT/"$nomtable-$nomurl-2".txt>>./CONTEXTES/"concatenationCONTEXT_$nomtable".txt                    nbmotif=$(egrep -coi $motif ./DUMP-TEXT/"$nomtable-$nomurl-2".txt)                    perl minigrep/minigrepmultilingue.pl UTF-8 ./DUMP-TEXT/"$nomtable-$nomurl-2".txt minigrep/motif.txt                    mv resultat-extraction.html ./CONTEXTES/"$nomtable-$nomurl".html                    echo $nbmotif                    echo "ECRITURE RESULTAT dans le tableau"                    echo "<tr>                    <td>${nomurl}</td>                    <td><a href="${url}">lien n<sup>o</sup>$nomurl</a></td>                    <td>${statu2}</td>                    <td><small>${statu1}</small></td>                    <td><a href='./PAGES-ASPIREES/${nomtable}-${nomurl}.html'>n<sup>o</sup>${nomtable}-${nomurl}</a></td>                    <td>${encodage}, $type</td>                    <td><a href='./DUMP-TEXT/$nomtable-$nomurl-1.txt'>DUMP n<sup>o</sup>$nomtable-$nomurl-1</a></td>                    <td><a href='./DUMP-TEXT/$nomtable-$nomurl-2.txt'>DUMP n<sup>o</sup>$nomtable-$nomurl-2</a></td>                    <td><a href='./CONTEXTES/$nomtable-$nomurl.txt'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>                    <td><a href='./CONTEXTES/$nomtable-$nomurl.html'>CONTEXTE n<sup>o</sup>$nomtable-$nomurl</a></td>                    <td>$nbmotif</td>                    </tr>" >>${tablefile}                fi        fi					let "nomurl=nomurl+1"    else        echo "telechargement echoue"    fi		}			echo "</table>" >>${tablefile}			let "nomtable=nomtable+1"}		echo "</body></html>">>${tablefile}#----The end------#;

Vous pouvez télécharger le script ici

Le script de Marine

Vous pouvez télécharger le script ici

Le script de Laurent

Nous avons produit plusieurs scripts pour le traitement des données d'entrée à savoir les listes d'URLs récoltées manuellement. L'enjeu étant d'automatiser tout le reste des traitements afin de constituer des corpus pour nos analyses (de quoi nourrir le Trameur, en somme), nous avons proposé deux scripts principaux, l'un "générique" et l'autre "synthétique", qui sont des versions quasi-similaires des traitements essentiels permettant de produire les données brutes et les tableaux qui les présentent, plus un script de "nettoyage" pour les fichiers de corpus. Les résultats présentés dans les sections suivantes du site sont ceux fournis par le script générique, car le script synthétique ne sert qu'à montrer les possibilités du langage Bash et offrir une variante (nous ne sommes pas en mesure de vérifier laquelle des deux versions est la plus performante; ce peut être aussi bien l'une que l'autre).

Vous pouvez télécharger le script synthétique ici, et le script de nettoyage ici.

Tableaux

Pour les quartre langues étudiés, on fait en total 5 tableaux:

Tablen^o1:Le tableau de Sinogramme simplifié(50 liens)

Tablen^o2:Le tableau de Sinogramme traditionnel(50 liens)

Tablen^o3:Le tableau de français(101 liens)

Tablen^o4:Le tableau d'anglais(108 liens)

Tablen^o5:Le tableau d'espagnol(60 liens)

Table n^o1 (Sinogramme simplifié)
N°	Lien	Code CURL	Statut CURL	Page Aspirée	Encodage Initial	DUMP initial	DUMP UTF-8	CONTEXTE UTF-8	CONTEXTE HTML UTF-8	Fq MOTIF
1	lien n^o1	200	HTTP/1.1 200 OK	n^o1-1	utf-8,via egrep	-	DUMP n^o1-1	CONTEXTE n^o1-1	CONTEXTE n^o1-1	63
2	lien n^o2	200	HTTP/1.1 200 OK	n^o1-2	utf-8,via egrep	-	DUMP n^o1-2	CONTEXTE n^o1-2	CONTEXTE n^o1-2	5
3	lien n^o3	200	HTTP/1.1 200 OK	n^o1-3	utf-8,via egrep	-	DUMP n^o1-3	CONTEXTE n^o1-3	CONTEXTE n^o1-3	6
4	lien n^o4	200	HTTP/1.1 200 OK	n^o1-4	utf-8,via egrep	-	DUMP n^o1-4	CONTEXTE n^o1-4	CONTEXTE n^o1-4	14
5	lien n^o5	200	HTTP/1.1 200 OK	n^o1-5	utf-8,via egrep	-	DUMP n^o1-5	CONTEXTE n^o1-5	CONTEXTE n^o1-5	4
6	lien n^o6	200	HTTP/1.1 200 OK	n^o1-6	utf-8,via egrep	-	DUMP n^o1-6	CONTEXTE n^o1-6	CONTEXTE n^o1-6	7
7	lien n^o7	200	HTTP/1.1 200 OK	n^o1-7	utf-8,via curl	-	DUMP n^o1-7	CONTEXTE n^o1-7	CONTEXTE n^o1-7	16
8	lien n^o8	200	HTTP/1.1 200 OK	n^o1-8	utf-8,via curl	-	DUMP n^o1-8	CONTEXTE n^o1-8	CONTEXTE n^o1-8	2
9	lien n^o9	200	HTTP/1.1 200 OK	n^o1-9	gb2312, via egrep	DUMP n^o1-9-1	DUMP n^o1-9-2	CONTEXTE n^o1-9	CONTEXTE n^o1-9	10
10	lien n^o10	200	HTTP/1.1 200 OK	n^o1-10	utf-8,via curl	-	DUMP n^o1-10	CONTEXTE n^o1-10	CONTEXTE n^o1-10	3
11	lien n^o11	200	HTTP/1.1 200 OK	n^o1-11	gb2312, via curl	DUMP n^o1-11-1	DUMP n^o1-11-2	CONTEXTE n^o1-11	CONTEXTE n^o1-11	5
12	lien n^o12	200	HTTP/1.1 200 OK	n^o1-12	utf-8,via curl	-	DUMP n^o1-12	CONTEXTE n^o1-12	CONTEXTE n^o1-12	5
13	lien n^o13	200	HTTP/1.1 200 OK	n^o1-13	utf-8,via egrep	-	DUMP n^o1-13	CONTEXTE n^o1-13	CONTEXTE n^o1-13	9
14	lien n^o14	200	HTTP/1.1 200 OK	n^o1-14	gb2312, via egrep	DUMP n^o1-14-1	DUMP n^o1-14-2	CONTEXTE n^o1-14	CONTEXTE n^o1-14	4
15	lien n^o15	200	HTTP/1.1 200 OK	n^o1-15	utf-8,via curl	-	DUMP n^o1-15	CONTEXTE n^o1-15	CONTEXTE n^o1-15	4
16	lien n^o16	200	HTTP/1.1 200 OK	n^o1-16	utf-8,via egrep	-	DUMP n^o1-16	CONTEXTE n^o1-16	CONTEXTE n^o1-16	2
17	lien n^o17	200	HTTP/1.0 200 OK	n^o1-17	utf-8,via egrep	-	DUMP n^o1-17	CONTEXTE n^o1-17	CONTEXTE n^o1-17	11
18	lien n^o18	200	HTTP/1.1 200 OK	n^o1-18	gb2312, via egrep	DUMP n^o1-18-1	DUMP n^o1-18-2	CONTEXTE n^o1-18	CONTEXTE n^o1-18	4
19	lien n^o19	200	HTTP/1.1 200 OK	n^o1-19	utf-8,via egrep	-	DUMP n^o1-19	CONTEXTE n^o1-19	CONTEXTE n^o1-19	5
20	lien n^o20	200	HTTP/1.1 200 OK	n^o1-20	gb2312, via egrep	DUMP n^o1-20-1	DUMP n^o1-20-2	CONTEXTE n^o1-20	CONTEXTE n^o1-20	7
21	lien n^o21	200	HTTP/1.1 200 OK	n^o1-21	gb2312, via egrep	DUMP n^o1-21-1	DUMP n^o1-21-2	CONTEXTE n^o1-21	CONTEXTE n^o1-21	39
22	lien n^o22	200	HTTP/1.1 200 OK	n^o1-22	gb2312, via egrep	DUMP n^o1-22-1	DUMP n^o1-22-2	CONTEXTE n^o1-22	CONTEXTE n^o1-22	24
23	lien n^o23	200	HTTP/1.1 200 OK	n^o1-23	gb2312, via egrep	DUMP n^o1-23-1	DUMP n^o1-23-2	CONTEXTE n^o1-23	CONTEXTE n^o1-23	16
24	lien n^o24	200	HTTP/1.1 200 OK	n^o1-24	gb2312, via egrep	DUMP n^o1-24-1	DUMP n^o1-24-2	CONTEXTE n^o1-24	CONTEXTE n^o1-24	8
25	lien n^o25	200	HTTP/1.0 200 OK	n^o1-25	utf-8,via egrep	-	DUMP n^o1-25	CONTEXTE n^o1-25	CONTEXTE n^o1-25	6
26	lien n^o26	200	HTTP/1.1 200 OK	n^o1-26	utf-8,via curl	-	DUMP n^o1-26	CONTEXTE n^o1-26	CONTEXTE n^o1-26	12
27	lien n^o27	200	HTTP/1.1 200 OK	n^o1-27	utf-8,via egrep	-	DUMP n^o1-27	CONTEXTE n^o1-27	CONTEXTE n^o1-27	10
28	lien n^o28	200	HTTP/1.1 200 OK	n^o1-28	gb2312, via egrep	DUMP n^o1-28-1	DUMP n^o1-28-2	CONTEXTE n^o1-28	CONTEXTE n^o1-28	36
29	lien n^o29	200	HTTP/1.1 200 OK	n^o1-29	gb2312, via egrep	DUMP n^o1-29-1	DUMP n^o1-29-2	CONTEXTE n^o1-29	CONTEXTE n^o1-29	3
30	lien n^o30	200	HTTP/1.1 200 OK	n^o1-30	gb2312, via egrep	DUMP n^o1-30-1	DUMP n^o1-30-2	CONTEXTE n^o1-30	CONTEXTE n^o1-30	9
31	lien n^o31	200	HTTP/1.1 200 OK	n^o1-31	gb2312, via egrep	DUMP n^o1-31-1	DUMP n^o1-31-2	CONTEXTE n^o1-31	CONTEXTE n^o1-31	2
32	lien n^o32	200	HTTP/1.1 200 OK	n^o1-32	gb2312, via egrep	DUMP n^o1-32-1	DUMP n^o1-32-2	CONTEXTE n^o1-32	CONTEXTE n^o1-32	2
33	lien n^o33	200	HTTP/1.1 200 OK	n^o1-33	utf-8,via egrep	-	DUMP n^o1-33	CONTEXTE n^o1-33	CONTEXTE n^o1-33	3
34	lien n^o34	200	HTTP/1.1 200 OK	n^o1-34	gb2312, via egrep	DUMP n^o1-34-1	DUMP n^o1-34-2	CONTEXTE n^o1-34	CONTEXTE n^o1-34	12
35	lien n^o35	200	HTTP/1.0 200 OK	n^o1-35	utf-8,via egrep	-	DUMP n^o1-35	CONTEXTE n^o1-35	CONTEXTE n^o1-35	4
36	lien n^o36	200	HTTP/1.0 200 OK	n^o1-36	utf-8,via egrep	-	DUMP n^o1-36	CONTEXTE n^o1-36	CONTEXTE n^o1-36	18
37	lien n^o37	200	HTTP/1.1 200 OK	n^o1-37	utf-8,via egrep	-	DUMP n^o1-37	CONTEXTE n^o1-37	CONTEXTE n^o1-37	15
38	lien n^o38	200	HTTP/1.1 200 OK	n^o1-38	gb2312, via egrep	DUMP n^o1-38-1	DUMP n^o1-38-2	CONTEXTE n^o1-38	CONTEXTE n^o1-38	20
39	lien n^o39	200	HTTP/1.1 200 OK	n^o1-39	gb2312, via egrep	DUMP n^o1-39-1	DUMP n^o1-39-2	CONTEXTE n^o1-39	CONTEXTE n^o1-39	10
40	lien n^o40	200	HTTP/1.1 200 OK	n^o1-40	gb2312, via egrep	DUMP n^o1-40-1	DUMP n^o1-40-2	CONTEXTE n^o1-40	CONTEXTE n^o1-40	10
41	lien n^o41	200	HTTP/1.1 200 OK	n^o1-41	gb2312, via egrep	DUMP n^o1-41-1	DUMP n^o1-41-2	CONTEXTE n^o1-41	CONTEXTE n^o1-41	10
42	lien n^o42	200	HTTP/1.1 200 OK	n^o1-42	gb2312, via curl	DUMP n^o1-42-1	DUMP n^o1-42-2	CONTEXTE n^o1-42	CONTEXTE n^o1-42	4
43	lien n^o43	200	HTTP/1.1 200 OK	n^o1-43	utf-8,via egrep	-	DUMP n^o1-43	CONTEXTE n^o1-43	CONTEXTE n^o1-43	7
44	lien n^o44	200	HTTP/1.1 200 OK	n^o1-44	gb2312, via egrep	DUMP n^o1-44-1	DUMP n^o1-44-2	CONTEXTE n^o1-44	CONTEXTE n^o1-44	11
45	lien n^o45	200	HTTP/1.1 200 OK	n^o1-45	utf-8,via curl	-	DUMP n^o1-45	CONTEXTE n^o1-45	CONTEXTE n^o1-45	2
46	lien n^o46	200	HTTP/1.1 200 OK	n^o1-46	gb2312, via egrep	DUMP n^o1-46-1	DUMP n^o1-46-2	CONTEXTE n^o1-46	CONTEXTE n^o1-46	34
47	lien n^o47	200	HTTP/1.1 200 OK	n^o1-47	utf-8,via curl	-	DUMP n^o1-47	CONTEXTE n^o1-47	CONTEXTE n^o1-47	4
48	lien n^o48	200	HTTP/1.1 200 OK	n^o1-48	utf-8,via egrep	-	DUMP n^o1-48	CONTEXTE n^o1-48	CONTEXTE n^o1-48	33
49	lien n^o49	200	HTTP/1.1 200 OK	n^o1-49	utf-8,via egrep	-	DUMP n^o1-49	CONTEXTE n^o1-49	CONTEXTE n^o1-49	5
50	lien n^o50	200	HTTP/1.1 200 OK	n^o1-50	gb2312, via egrep	DUMP n^o1-50-1	DUMP n^o1-50-2	CONTEXTE n^o1-50	CONTEXTE n^o1-50	1

Au top

Table n^o2(Sinogramme traditionnel)
N°	Lien	Code CURL	Statut CURL	Page Aspirée	Encodage Initial	DUMP initial	DUMP UTF-8	CONTEXTE UTF-8	CONTEXTE HTML UTF-8	Fq MOTIF
1	lien n^o1	200	HTTP/1.1 200 OK	n^o2-1	utf-8,via egrep	-	DUMP n^o2-1	CONTEXTE n^o2-1	CONTEXTE n^o2-1	76
2	lien n^o2	200	HTTP/1.1 200 OK	n^o2-2	utf-8,via curl	-	DUMP n^o2-2	CONTEXTE n^o2-2	CONTEXTE n^o2-2	13
3	lien n^o3	200	HTTP/1.1 200 OK	n^o2-3	utf-8,via curl	-	DUMP n^o2-3	CONTEXTE n^o2-3	CONTEXTE n^o2-3	23
4	lien n^o4	200	HTTP/1.1 200 OK	n^o2-4	utf-8,via egrep	-	DUMP n^o2-4	CONTEXTE n^o2-4	CONTEXTE n^o2-4	21
5	lien n^o5	200	HTTP/1.1 200 OK	n^o2-5	utf-8,via curl	-	DUMP n^o2-5	CONTEXTE n^o2-5	CONTEXTE n^o2-5	15
6	lien n^o6	200	HTTP/1.1 200 OK	n^o2-6	utf-8,via curl	-	DUMP n^o2-6	CONTEXTE n^o2-6	CONTEXTE n^o2-6	4
7	lien n^o7	200	HTTP/1.1 200 OK	n^o2-7	utf-8,via egrep	-	DUMP n^o2-7	CONTEXTE n^o2-7	CONTEXTE n^o2-7	15
8	lien n^o8	200	HTTP/1.1 200 OK	n^o2-8	utf-8,via curl	-	DUMP n^o2-8	CONTEXTE n^o2-8	CONTEXTE n^o2-8	7
9	lien n^o9	200	HTTP/1.1 200 OK	n^o2-9	utf-8,via egrep	-	DUMP n^o2-9	CONTEXTE n^o2-9	CONTEXTE n^o2-9	6
10	lien n^o10	200	HTTP/1.1 200 OK	n^o2-10	utf-8,via curl	-	DUMP n^o2-10	CONTEXTE n^o2-10	CONTEXTE n^o2-10	11
11	lien n^o11	200	HTTP/1.1 200 OK	n^o2-11	utf-8,via egrep	-	DUMP n^o2-11	CONTEXTE n^o2-11	CONTEXTE n^o2-11	6
12	lien n^o12	200	HTTP/1.1 200 OK	n^o2-12	utf-8,via curl	-	DUMP n^o2-12	CONTEXTE n^o2-12	CONTEXTE n^o2-12	4
13	lien n^o13	200	HTTP/1.1 200 OK	n^o2-13	utf-8,via curl	-	DUMP n^o2-13	CONTEXTE n^o2-13	CONTEXTE n^o2-13	2
14	lien n^o14	200	HTTP/1.1 200 OK	n^o2-14	utf-8,via curl	-	DUMP n^o2-14	CONTEXTE n^o2-14	CONTEXTE n^o2-14	5
15	lien n^o15	200	HTTP/1.1 200 OK	n^o2-15	utf-8,via egrep	-	DUMP n^o2-15	CONTEXTE n^o2-15	CONTEXTE n^o2-15	4
16	lien n^o16	200	HTTP/1.1 200 OK	n^o2-16	utf-8,via curl	-	DUMP n^o2-16	CONTEXTE n^o2-16	CONTEXTE n^o2-16	14
17	lien n^o17	200	HTTP/1.1 200 OK	n^o2-17	utf-8,via curl	-	DUMP n^o2-17	CONTEXTE n^o2-17	CONTEXTE n^o2-17	5
18	lien n^o18	200	HTTP/1.1 200 OK	n^o2-18	utf-8,via curl	-	DUMP n^o2-18	CONTEXTE n^o2-18	CONTEXTE n^o2-18	5
19	lien n^o19	200	HTTP/1.1 200 OK	n^o2-19	utf-8,via curl	-	DUMP n^o2-19	CONTEXTE n^o2-19	CONTEXTE n^o2-19	4
20	lien n^o20	200	HTTP/1.1 200 OK	n^o2-20	utf-8,via curl	-	DUMP n^o2-20	CONTEXTE n^o2-20	CONTEXTE n^o2-20	15
21	lien n^o21	200	HTTP/1.1 200 OK	n^o2-21	utf-8,via curl	-	DUMP n^o2-21	CONTEXTE n^o2-21	CONTEXTE n^o2-21	10
22	lien n^o22	200	HTTP/1.1 200 OK	n^o2-22	utf-8,via egrep	-	DUMP n^o2-22	CONTEXTE n^o2-22	CONTEXTE n^o2-22	3
23	lien n^o23	200	HTTP/1.1 200 OK	n^o2-23	utf-8,via curl	-	DUMP n^o2-23	CONTEXTE n^o2-23	CONTEXTE n^o2-23	3
24	lien n^o24	200	HTTP/1.1 200 OK	n^o2-24	utf-8,via curl	-	DUMP n^o2-24	CONTEXTE n^o2-24	CONTEXTE n^o2-24	10
25	lien n^o25	200	HTTP/1.1 200 OK	n^o2-25	utf-8,via curl	-	DUMP n^o2-25	CONTEXTE n^o2-25	CONTEXTE n^o2-25	1
26	lien n^o26	200	HTTP/1.1 200 OK	n^o2-26	utf-8,via egrep	-	DUMP n^o2-26	CONTEXTE n^o2-26	CONTEXTE n^o2-26	7
27	lien n^o27	200	HTTP/1.1 200 OK	n^o2-27	utf-8,via curl	-	DUMP n^o2-27	CONTEXTE n^o2-27	CONTEXTE n^o2-27	6
28	lien n^o28	200	HTTP/1.1 200 OK	n^o2-28	utf-8,via curl	-	DUMP n^o2-28	CONTEXTE n^o2-28	CONTEXTE n^o2-28	13
29	lien n^o29	200	HTTP/1.1 200 OK	n^o2-29	utf-8,via curl	-	DUMP n^o2-29	CONTEXTE n^o2-29	CONTEXTE n^o2-29	3
30	lien n^o30	200	HTTP/1.1 200 OK	n^o2-30	utf-8,via curl	-	DUMP n^o2-30	CONTEXTE n^o2-30	CONTEXTE n^o2-30	4
31	lien n^o31	200	HTTP/1.1 200 OK	n^o2-31	utf-8,via egrep	-	DUMP n^o2-31	CONTEXTE n^o2-31	CONTEXTE n^o2-31	3
32	lien n^o32	200	HTTP/1.1 200 OK	n^o2-32	utf-8,via egrep	-	DUMP n^o2-32	CONTEXTE n^o2-32	CONTEXTE n^o2-32	9
33	lien n^o33	200	HTTP/1.1 200 OK	n^o2-33	utf-8,via egrep	-	DUMP n^o2-33	CONTEXTE n^o2-33	CONTEXTE n^o2-33	2
34	lien n^o34	200	HTTP/1.1 200 OK	n^o2-34	utf-8,via curl	-	DUMP n^o2-34	CONTEXTE n^o2-34	CONTEXTE n^o2-34	2
35	lien n^o35	200	HTTP/1.1 200 OK	n^o2-35	utf-8,via egrep	-	DUMP n^o2-35	CONTEXTE n^o2-35	CONTEXTE n^o2-35	3
36	lien n^o36	200	HTTP/1.1 200 OK	n^o2-36	utf-8,via egrep	-	DUMP n^o2-36	CONTEXTE n^o2-36	CONTEXTE n^o2-36	4
37	lien n^o37	200	HTTP/1.1 200 OK	n^o2-37	utf-8,via curl	-	DUMP n^o2-37	CONTEXTE n^o2-37	CONTEXTE n^o2-37	8
38	lien n^o38	200	HTTP/1.1 200 OK	n^o2-38	utf-8,via curl	-	DUMP n^o2-38	CONTEXTE n^o2-38	CONTEXTE n^o2-38	5
39	lien n^o39	200	HTTP/1.1 200 OK	n^o2-39	utf-8,via curl	-	DUMP n^o2-39	CONTEXTE n^o2-39	CONTEXTE n^o2-39	8
40	lien n^o40	200	HTTP/1.1 200 OK	n^o2-40	utf-8,via egrep	-	DUMP n^o2-40	CONTEXTE n^o2-40	CONTEXTE n^o2-40	5
41	lien n^o41	200	HTTP/1.1 200 OK	n^o2-41	utf-8,via curl	-	DUMP n^o2-41	CONTEXTE n^o2-41	CONTEXTE n^o2-41	5
42	lien n^o42	200	HTTP/1.1 200 OK	n^o2-42	utf-8,via curl	-	DUMP n^o2-42	CONTEXTE n^o2-42	CONTEXTE n^o2-42	24
43	lien n^o43	200	HTTP/1.1 200 OK	n^o2-43	utf-8,via curl	-	DUMP n^o2-43	CONTEXTE n^o2-43	CONTEXTE n^o2-43	4
44	lien n^o44	200	HTTP/1.1 200 OK	n^o2-44	utf-8,via curl	-	DUMP n^o2-44	CONTEXTE n^o2-44	CONTEXTE n^o2-44	8
45	lien n^o45	200	HTTP/1.1 200 OK	n^o2-45	utf-8,via curl	-	DUMP n^o2-45	CONTEXTE n^o2-45	CONTEXTE n^o2-45	28
46	lien n^o46	200	HTTP/1.1 200 OK	n^o2-46	utf-8,via egrep	-	DUMP n^o2-46	CONTEXTE n^o2-46	CONTEXTE n^o2-46	2
47	lien n^o47	200	HTTP/1.1 200 OK	n^o2-47	utf-8,via curl	-	DUMP n^o2-47	CONTEXTE n^o2-47	CONTEXTE n^o2-47	18
48	lien n^o48	200	HTTP/1.1 200 OK	n^o2-48	utf-8,via curl	-	DUMP n^o2-48	CONTEXTE n^o2-48	CONTEXTE n^o2-48	9
49	lien n^o49	200	HTTP/1.1 200 OK	n^o2-49	utf-8,via curl	-	DUMP n^o2-49	CONTEXTE n^o2-49	CONTEXTE n^o2-49	6
50	lien n^o50	200	HTTP/1.1 200 OK	n^o2-50	utf-8,via curl	-	DUMP n^o2-50	CONTEXTE n^o2-50	CONTEXTE n^o2-50	10

Au top

Table n^o3(français)
N°	Lien	Code CURL	Statut CURL	Page Aspirée	Encodage Initial	DUMP initial	DUMP UTF-8	CONTEXTE UTF-8	CONTEXTE HTML UTF-8	Fq MOTIF
1	lien n^o1	200	HTTP/1.1 200 OK	n^o3-1	utf-8,via curl	-	DUMP n^o3-1	CONTEXTE n^o3-1	CONTEXTE n^o3-1	2
2	lien n^o2	200	HTTP/1.1 200 OK	n^o3-2	utf-8,via curl	-	DUMP n^o3-2	CONTEXTE n^o3-2	CONTEXTE n^o3-2	1
3	lien n^o3	200	HTTP/1.1 200 OK	n^o3-3	utf-8,via curl	-	DUMP n^o3-3	CONTEXTE n^o3-3	CONTEXTE n^o3-3	2
4	lien n^o4	200	HTTP/1.1 200 OK	n^o3-4	utf-8,via curl	-	DUMP n^o3-4	CONTEXTE n^o3-4	CONTEXTE n^o3-4	1
5	lien n^o5	200	HTTP/1.1 200 OK	n^o3-5	utf-8,via curl	-	DUMP n^o3-5	CONTEXTE n^o3-5	CONTEXTE n^o3-5	2
6	lien n^o6	200	HTTP/1.1 200 OK	n^o3-6	utf-8,via curl	-	DUMP n^o3-6	CONTEXTE n^o3-6	CONTEXTE n^o3-6	2
7	lien n^o7	200	HTTP/1.1 200 OK	n^o3-7	utf-8,via curl	-	DUMP n^o3-7	CONTEXTE n^o3-7	CONTEXTE n^o3-7	1
8	lien n^o8	200	HTTP/1.1 200 OK	n^o3-8	utf-8,via curl	-	DUMP n^o3-8	CONTEXTE n^o3-8	CONTEXTE n^o3-8	2
9	lien n^o9	200	HTTP/1.1 200 OK	n^o3-9	utf-8,via curl	-	DUMP n^o3-9	CONTEXTE n^o3-9	CONTEXTE n^o3-9	1
10	lien n^o10	200	HTTP/1.1 200 OK	n^o3-10	utf-8,via curl	-	DUMP n^o3-10	CONTEXTE n^o3-10	CONTEXTE n^o3-10	1
11	lien n^o11	200	HTTP/1.1 200 OK	n^o3-11	utf-8,via curl	-	DUMP n^o3-11	CONTEXTE n^o3-11	CONTEXTE n^o3-11	1
12	lien n^o12	200	HTTP/1.1 200 OK	n^o3-12	utf-8,via curl	-	DUMP n^o3-12	CONTEXTE n^o3-12	CONTEXTE n^o3-12	1
13	lien n^o13	200	HTTP/1.1 200 OK	n^o3-13	utf-8,via curl	-	DUMP n^o3-13	CONTEXTE n^o3-13	CONTEXTE n^o3-13	8
14	lien n^o14	200	HTTP/1.1 200 OK	n^o3-14	utf-8,via curl	-	DUMP n^o3-14	CONTEXTE n^o3-14	CONTEXTE n^o3-14	3
15	lien n^o15	200	HTTP/1.1 200 OK	n^o3-15	utf-8,via curl	-	DUMP n^o3-15	CONTEXTE n^o3-15	CONTEXTE n^o3-15	2
16	lien n^o16	200	HTTP/1.1 200 OK	n^o3-16	utf-8,via curl	-	DUMP n^o3-16	CONTEXTE n^o3-16	CONTEXTE n^o3-16	1
17	lien n^o17	200	HTTP/1.1 200 OK	n^o3-17	utf-8,via curl	-	DUMP n^o3-17	CONTEXTE n^o3-17	CONTEXTE n^o3-17	1
18	lien n^o18	200	HTTP/1.1 200 OK	n^o3-18	utf-8,via curl	-	DUMP n^o3-18	CONTEXTE n^o3-18	CONTEXTE n^o3-18	1
19	lien n^o19	200	HTTP/1.1 200 OK	n^o3-19	utf-8,via curl	-	DUMP n^o3-19	CONTEXTE n^o3-19	CONTEXTE n^o3-19	3
20	lien n^o20	200	HTTP/1.1 200 OK	n^o3-20	utf-8,via curl	-	DUMP n^o3-20	CONTEXTE n^o3-20	CONTEXTE n^o3-20	1
21	lien n^o21	200	HTTP/1.1 200 OK	n^o3-21	utf-8,via curl	-	DUMP n^o3-21	CONTEXTE n^o3-21	CONTEXTE n^o3-21	1
22	lien n^o22	200	HTTP/1.1 200 OK	n^o3-22	utf-8,via curl	-	DUMP n^o3-22	CONTEXTE n^o3-22	CONTEXTE n^o3-22	1
23	lien n^o23	200	HTTP/1.1 200 OK	n^o3-23	utf-8,via curl	-	DUMP n^o3-23	CONTEXTE n^o3-23	CONTEXTE n^o3-23	1
24	lien n^o24	200	HTTP/1.1 200 OK	n^o3-24	utf-8,via curl	-	DUMP n^o3-24	CONTEXTE n^o3-24	CONTEXTE n^o3-24	1
25	lien n^o25	200	HTTP/1.1 200 OK	n^o3-25	utf-8,via curl	-	DUMP n^o3-25	CONTEXTE n^o3-25	CONTEXTE n^o3-25	1
26	lien n^o26	200	HTTP/1.1 200 OK	n^o3-26	utf-8,via curl	-	DUMP n^o3-26	CONTEXTE n^o3-26	CONTEXTE n^o3-26	2
27	lien n^o27	200	HTTP/1.1 200 OK	n^o3-27	utf-8,via curl	-	DUMP n^o3-27	CONTEXTE n^o3-27	CONTEXTE n^o3-27	1
28	lien n^o28	200	HTTP/1.1 200 OK	n^o3-28	utf-8,via curl	-	DUMP n^o3-28	CONTEXTE n^o3-28	CONTEXTE n^o3-28	1
29	lien n^o29	200	HTTP/1.1 200 OK	n^o3-29	utf-8,via curl	-	DUMP n^o3-29	CONTEXTE n^o3-29	CONTEXTE n^o3-29	3
30	lien n^o30	200	HTTP/1.1 200 OK	n^o3-30	utf-8,via curl	-	DUMP n^o3-30	CONTEXTE n^o3-30	CONTEXTE n^o3-30	1
31	lien n^o31	200	HTTP/1.1 200 OK	n^o3-31	utf-8,via curl	-	DUMP n^o3-31	CONTEXTE n^o3-31	CONTEXTE n^o3-31	14
32	lien n^o32	200	HTTP/1.1 200 OK	n^o3-32	utf-8,via curl	-	DUMP n^o3-32	CONTEXTE n^o3-32	CONTEXTE n^o3-32	1
33	lien n^o33	200	HTTP/1.1 200 OK	n^o3-33	utf-8,via curl	-	DUMP n^o3-33	CONTEXTE n^o3-33	CONTEXTE n^o3-33	2
34	lien n^o34	200	HTTP/1.1 200 OK	n^o3-34	utf-8,via curl	-	DUMP n^o3-34	CONTEXTE n^o3-34	CONTEXTE n^o3-34	13
35	lien n^o35	200	HTTP/1.1 200 OK	n^o3-35	utf-8,via curl	-	DUMP n^o3-35	CONTEXTE n^o3-35	CONTEXTE n^o3-35	5
36	lien n^o36	200	HTTP/1.1 200 OK	n^o3-36	utf-8,via curl	-	DUMP n^o3-36	CONTEXTE n^o3-36	CONTEXTE n^o3-36	5
37	lien n^o37	200	HTTP/1.1 200 OK	n^o3-37	utf-8,via curl	-	DUMP n^o3-37	CONTEXTE n^o3-37	CONTEXTE n^o3-37	4
38	lien n^o38	200	HTTP/1.1 200 OK	n^o3-38	utf-8,via curl	-	DUMP n^o3-38	CONTEXTE n^o3-38	CONTEXTE n^o3-38	11
39	lien n^o39	200	HTTP/1.1 200 OK	n^o3-39	utf-8,via curl	-	DUMP n^o3-39	CONTEXTE n^o3-39	CONTEXTE n^o3-39	4
40	lien n^o40	200	HTTP/1.1 200 OK	n^o3-40	utf-8,via curl	-	DUMP n^o3-40	CONTEXTE n^o3-40	CONTEXTE n^o3-40	10
41	lien n^o41	200	HTTP/1.1 200 OK	n^o3-41	utf-8,via curl	-	DUMP n^o3-41	CONTEXTE n^o3-41	CONTEXTE n^o3-41	14
42	lien n^o42	200	HTTP/1.1 200 OK	n^o3-42	utf-8,via curl	-	DUMP n^o3-42	CONTEXTE n^o3-42	CONTEXTE n^o3-42	9
43	lien n^o43	200	HTTP/1.1 200 OK	n^o3-43	utf-8,via curl	-	DUMP n^o3-43	CONTEXTE n^o3-43	CONTEXTE n^o3-43	7
44	lien n^o44	200	HTTP/1.1 200 OK	n^o3-44	utf-8,via curl	-	DUMP n^o3-44	CONTEXTE n^o3-44	CONTEXTE n^o3-44	14
45	lien n^o45	200	HTTP/1.1 200 OK	n^o3-45	utf-8,via curl	-	DUMP n^o3-45	CONTEXTE n^o3-45	CONTEXTE n^o3-45	4
46	lien n^o46	200	HTTP/1.1 200 OK	n^o3-46	utf-8,via curl	-	DUMP n^o3-46	CONTEXTE n^o3-46	CONTEXTE n^o3-46	27
47	lien n^o47	200	HTTP/1.1 200 OK	n^o3-47	utf-8,via curl	-	DUMP n^o3-47	CONTEXTE n^o3-47	CONTEXTE n^o3-47	17
48	lien n^o48	200	HTTP/1.1 200 OK	n^o3-48	utf-8,via curl	-	DUMP n^o3-48	CONTEXTE n^o3-48	CONTEXTE n^o3-48	7
49	lien n^o49	200	HTTP/1.1 200 OK	n^o3-49	utf-8,via curl	-	DUMP n^o3-49	CONTEXTE n^o3-49	CONTEXTE n^o3-49	19
50	lien n^o50	200	HTTP/1.1 200 OK	n^o3-50	utf-8,via curl	-	DUMP n^o3-50	CONTEXTE n^o3-50	CONTEXTE n^o3-50	8
51	lien n^o51	200	HTTP/1.1 200 OK	n^o3-51	utf-8,via curl	-	DUMP n^o3-51	CONTEXTE n^o3-51	CONTEXTE n^o3-51	34
52	lien n^o52	200	HTTP/1.1 200 OK	n^o3-52	utf-8,via curl	-	DUMP n^o3-52	CONTEXTE n^o3-52	CONTEXTE n^o3-52	11
53	lien n^o53	200	HTTP/1.1 200 OK	n^o3-53	utf-8,via curl	-	DUMP n^o3-53	CONTEXTE n^o3-53	CONTEXTE n^o3-53	12
54	lien n^o54	200	HTTP/1.1 200 OK	n^o3-54	utf-8,via curl	-	DUMP n^o3-54	CONTEXTE n^o3-54	CONTEXTE n^o3-54	8
55	lien n^o55	200	HTTP/1.1 200 OK	n^o3-55	utf-8,via curl	-	DUMP n^o3-55	CONTEXTE n^o3-55	CONTEXTE n^o3-55	11
56	lien n^o56	200	HTTP/1.1 200 OK	n^o3-56	utf-8,via curl	-	DUMP n^o3-56	CONTEXTE n^o3-56	CONTEXTE n^o3-56	8
57	lien n^o57	200	HTTP/1.1 200 OK	n^o3-57	utf-8,via curl	-	DUMP n^o3-57	CONTEXTE n^o3-57	CONTEXTE n^o3-57	5
58	lien n^o58	200	HTTP/1.1 200 OK	n^o3-58	utf-8,via curl	-	DUMP n^o3-58	CONTEXTE n^o3-58	CONTEXTE n^o3-58	10
59	lien n^o59	200	HTTP/1.1 200 OK	n^o3-59	utf-8,via curl	-	DUMP n^o3-59	CONTEXTE n^o3-59	CONTEXTE n^o3-59	14
60	lien n^o60	200	HTTP/1.1 200 OK	n^o3-60	utf-8,via curl	-	DUMP n^o3-60	CONTEXTE n^o3-60	CONTEXTE n^o3-60	6
61	lien n^o61	200	HTTP/1.1 200 OK	n^o3-61	utf-8,via curl	-	DUMP n^o3-61	CONTEXTE n^o3-61	CONTEXTE n^o3-61	4
62	lien n^o62	200	HTTP/1.1 200 OK	n^o3-62	utf-8,via curl	-	DUMP n^o3-62	CONTEXTE n^o3-62	CONTEXTE n^o3-62	32
63	lien n^o63	200	HTTP/1.1 200 OK	n^o3-63	utf-8,via curl	-	DUMP n^o3-63	CONTEXTE n^o3-63	CONTEXTE n^o3-63	26
64	lien n^o64	200	HTTP/1.1 200 OK	n^o3-64	utf-8,via curl	-	DUMP n^o3-64	CONTEXTE n^o3-64	CONTEXTE n^o3-64	5
65	lien n^o65	200	HTTP/1.1 200 OK	n^o3-65	utf-8,via curl	-	DUMP n^o3-65	CONTEXTE n^o3-65	CONTEXTE n^o3-65	10
66	lien n^o66	200	HTTP/1.1 200 OK	n^o3-66	utf-8,via curl	-	DUMP n^o3-66	CONTEXTE n^o3-66	CONTEXTE n^o3-66	3
67	lien n^o67	200	HTTP/1.1 200 OK	n^o3-67	utf-8,via curl	-	DUMP n^o3-67	CONTEXTE n^o3-67	CONTEXTE n^o3-67	23
68	lien n^o68	200	HTTP/1.1 200 OK	n^o3-68	utf-8,via curl	-	DUMP n^o3-68	CONTEXTE n^o3-68	CONTEXTE n^o3-68	17
69	lien n^o69	200	HTTP/1.1 200 OK	n^o3-69	utf-8,via curl	-	DUMP n^o3-69	CONTEXTE n^o3-69	CONTEXTE n^o3-69	13
70	lien n^o70	200	HTTP/1.1 200 OK	n^o3-70	utf-8,via curl	-	DUMP n^o3-70	CONTEXTE n^o3-70	CONTEXTE n^o3-70	9
71	lien n^o71	200	HTTP/1.1 200 OK	n^o3-71	utf-8,via curl	-	DUMP n^o3-71	CONTEXTE n^o3-71	CONTEXTE n^o3-71	15
72	lien n^o72	200	HTTP/1.1 200 OK	n^o3-72	utf-8,via curl	-	DUMP n^o3-72	CONTEXTE n^o3-72	CONTEXTE n^o3-72	3
73	lien n^o73	200	HTTP/1.1 200 OK	n^o3-73	utf-8,via curl	-	DUMP n^o3-73	CONTEXTE n^o3-73	CONTEXTE n^o3-73	14
74	lien n^o74	200	HTTP/1.1 200 OK	n^o3-74	utf-8,via curl	-	DUMP n^o3-74	CONTEXTE n^o3-74	CONTEXTE n^o3-74	9
75	lien n^o75	200	HTTP/1.1 200 OK	n^o3-75	utf-8,via curl	-	DUMP n^o3-75	CONTEXTE n^o3-75	CONTEXTE n^o3-75	17
76	lien n^o76	200	HTTP/1.1 200 OK	n^o3-76	utf-8,via curl	-	DUMP n^o3-76	CONTEXTE n^o3-76	CONTEXTE n^o3-76	6
77	lien n^o77	200	HTTP/1.1 200 OK	n^o3-77	utf-8,via curl	-	DUMP n^o3-77	CONTEXTE n^o3-77	CONTEXTE n^o3-77	28
78	lien n^o78	200	HTTP/1.1 200 OK	n^o3-78	utf-8,via curl	-	DUMP n^o3-78	CONTEXTE n^o3-78	CONTEXTE n^o3-78	8
79	lien n^o79	200	HTTP/1.1 200 OK	n^o3-79	utf-8,via curl	-	DUMP n^o3-79	CONTEXTE n^o3-79	CONTEXTE n^o3-79	5
80	lien n^o80	200	HTTP/1.1 200 OK	n^o3-80	utf-8,via curl	-	DUMP n^o3-80	CONTEXTE n^o3-80	CONTEXTE n^o3-80	14
81	lien n^o81	200	HTTP/1.1 200 OK	n^o3-81	utf-8,via curl	-	DUMP n^o3-81	CONTEXTE n^o3-81	CONTEXTE n^o3-81	4
82	lien n^o82	200	HTTP/1.1 200 OK	n^o3-82	utf-8,via curl	-	DUMP n^o3-82	CONTEXTE n^o3-82	CONTEXTE n^o3-82	6
83	lien n^o83	200	HTTP/1.1 200 OK	n^o3-83	utf-8,via curl	-	DUMP n^o3-83	CONTEXTE n^o3-83	CONTEXTE n^o3-83	7
84	lien n^o84	200	HTTP/1.1 200 OK	n^o3-84	utf-8,via curl	-	DUMP n^o3-84	CONTEXTE n^o3-84	CONTEXTE n^o3-84	4
85	lien n^o85	200	HTTP/1.1 200 OK	n^o3-85	utf-8,via curl	-	DUMP n^o3-85	CONTEXTE n^o3-85	CONTEXTE n^o3-85	8
86	lien n^o86	200	HTTP/1.1 200 OK	n^o3-86	utf-8,via curl	-	DUMP n^o3-86	CONTEXTE n^o3-86	CONTEXTE n^o3-86	6
87	lien n^o87	200	HTTP/1.1 200 OK	n^o3-87	utf-8,via curl	-	DUMP n^o3-87	CONTEXTE n^o3-87	CONTEXTE n^o3-87	3
88	lien n^o88	200	HTTP/1.1 200 OK	n^o3-88	utf-8,via curl	-	DUMP n^o3-88	CONTEXTE n^o3-88	CONTEXTE n^o3-88	7
89	lien n^o89	200	HTTP/1.1 200 OK	n^o3-89	utf-8,via curl	-	DUMP n^o3-89	CONTEXTE n^o3-89	CONTEXTE n^o3-89	4
90	lien n^o90	200	HTTP/1.1 200 OK	n^o3-90	utf-8,via curl	-	DUMP n^o3-90	CONTEXTE n^o3-90	CONTEXTE n^o3-90	9
91	lien n^o91	200	HTTP/1.1 200 OK	n^o3-91	utf-8,via curl	-	DUMP n^o3-91	CONTEXTE n^o3-91	CONTEXTE n^o3-91	15
92	lien n^o92	200	HTTP/1.1 200 OK	n^o3-92	utf-8,via curl	-	DUMP n^o3-92	CONTEXTE n^o3-92	CONTEXTE n^o3-92	2
93	lien n^o93	200	HTTP/1.1 200 OK	n^o3-93	utf-8,via curl	-	DUMP n^o3-93	CONTEXTE n^o3-93	CONTEXTE n^o3-93	5
94	lien n^o94	200	HTTP/1.1 200 OK	n^o3-94	utf-8,via curl	-	DUMP n^o3-94	CONTEXTE n^o3-94	CONTEXTE n^o3-94	11
95	lien n^o95	200	HTTP/1.1 200 OK	n^o3-95	utf-8,via curl	-	DUMP n^o3-95	CONTEXTE n^o3-95	CONTEXTE n^o3-95	3
96	lien n^o96	200	HTTP/1.1 200 OK	n^o3-96	utf-8,via curl	-	DUMP n^o3-96	CONTEXTE n^o3-96	CONTEXTE n^o3-96	4
97	lien n^o97	200	HTTP/1.1 200 OK	n^o3-97	utf-8,via curl	-	DUMP n^o3-97	CONTEXTE n^o3-97	CONTEXTE n^o3-97	2
98	lien n^o98	200	HTTP/1.1 200 OK	n^o3-98	utf-8,via curl	-	DUMP n^o3-98	CONTEXTE n^o3-98	CONTEXTE n^o3-98	4
99	lien n^o99	200	HTTP/1.1 200 OK	n^o3-99	utf-8,via curl	-	DUMP n^o3-99	CONTEXTE n^o3-99	CONTEXTE n^o3-99	4
100	lien n^o100	200	HTTP/1.1 200 OK	n^o3-100	utf-8,via curl	-	DUMP n^o3-100	CONTEXTE n^o3-100	CONTEXTE n^o3-100	10
101	lien n^o101	200	HTTP/1.1 200 OK	n^o3-101	utf-8,via curl	-	DUMP n^o3-101	CONTEXTE n^o3-101	CONTEXTE n^o3-101	8

Au top

Table n^o4 (anglais)
N°	Lien	Code CURL	Statut CURL	Page Aspirée	Encodage Initial	DUMP initial	DUMP UTF-8	CONTEXTE UTF-8	CONTEXTE HTML UTF-8	Fq MOTIF
1	lien n^o1	200	HTTP/1.1 200 OK	n^o4-1	utf-8,via curl	-	DUMP n^o4-1	CONTEXTE n^o4-1	CONTEXTE n^o4-1	6
2	lien n^o2	200	HTTP/1.1 200 OK	n^o4-2	utf-8,via curl	-	DUMP n^o4-2	CONTEXTE n^o4-2	CONTEXTE n^o4-2	17
3	lien n^o3	200	HTTP/1.1 200 OK	n^o4-3	utf-8,via curl	-	DUMP n^o4-3	CONTEXTE n^o4-3	CONTEXTE n^o4-3	10
4	lien n^o4	200	HTTP/1.1 200 OK	n^o4-4	utf-8,via curl	-	DUMP n^o4-4	CONTEXTE n^o4-4	CONTEXTE n^o4-4	5
5	lien n^o5	200	HTTP/1.1 200 OK	n^o4-5	utf-8,via curl	-	DUMP n^o4-5	CONTEXTE n^o4-5	CONTEXTE n^o4-5	13
6	lien n^o6	200	HTTP/1.1 200 OK	n^o4-6	utf-8,via curl	-	DUMP n^o4-6	CONTEXTE n^o4-6	CONTEXTE n^o4-6	17
7	lien n^o7	200	HTTP/1.1 200 OK	n^o4-7	utf-8,via curl	-	DUMP n^o4-7	CONTEXTE n^o4-7	CONTEXTE n^o4-7	4
8	lien n^o8	200	HTTP/1.1 200 OK	n^o4-8	utf-8,via curl	-	DUMP n^o4-8	CONTEXTE n^o4-8	CONTEXTE n^o4-8	4
9	lien n^o9	200	HTTP/1.1 200 OK	n^o4-9	utf-8,via curl	-	DUMP n^o4-9	CONTEXTE n^o4-9	CONTEXTE n^o4-9	3
10	lien n^o10	200	HTTP/1.1 200 OK	n^o4-10	utf-8,via curl	-	DUMP n^o4-10	CONTEXTE n^o4-10	CONTEXTE n^o4-10	3
11	lien n^o11	200	HTTP/1.1 200 OK	n^o4-11	utf-8,via curl	-	DUMP n^o4-11	CONTEXTE n^o4-11	CONTEXTE n^o4-11	6
12	lien n^o12	200	HTTP/1.1 200 OK	n^o4-12	utf-8,via curl	-	DUMP n^o4-12	CONTEXTE n^o4-12	CONTEXTE n^o4-12	3
13	lien n^o13	200	HTTP/1.1 200 OK	n^o4-13	utf-8,via curl	-	DUMP n^o4-13	CONTEXTE n^o4-13	CONTEXTE n^o4-13	1
14	lien n^o14	200	HTTP/1.1 200 OK	n^o4-14	utf-8,via curl	-	DUMP n^o4-14	CONTEXTE n^o4-14	CONTEXTE n^o4-14	2
15	lien n^o15	200	HTTP/1.1 200 OK	n^o4-15	utf-8,via curl	-	DUMP n^o4-15	CONTEXTE n^o4-15	CONTEXTE n^o4-15	2
16	lien n^o16	200	HTTP/1.1 200 OK	n^o4-16	utf-8,via curl	-	DUMP n^o4-16	CONTEXTE n^o4-16	CONTEXTE n^o4-16	15
17	lien n^o17	200	HTTP/1.1 200 OK	n^o4-17	utf-8,via curl	-	DUMP n^o4-17	CONTEXTE n^o4-17	CONTEXTE n^o4-17	12
18	lien n^o18	200	HTTP/1.1 200 OK	n^o4-18	utf-8,via curl	-	DUMP n^o4-18	CONTEXTE n^o4-18	CONTEXTE n^o4-18	6
19	lien n^o19	200	HTTP/1.1 200 OK	n^o4-19	utf-8,via curl	-	DUMP n^o4-19	CONTEXTE n^o4-19	CONTEXTE n^o4-19	19
20	lien n^o20	200	HTTP/1.1 200 OK	n^o4-20	utf-8,via curl	-	DUMP n^o4-20	CONTEXTE n^o4-20	CONTEXTE n^o4-20	1
21	lien n^o21	200	HTTP/1.1 200 OK	n^o4-21	utf-8,via charset	-	DUMP n^o4-21	CONTEXTE n^o4-21	CONTEXTE n^o4-21	25
22	lien n^o22	200	HTTP/1.1 200 OK	n^o4-22	utf-8,via curl	-	DUMP n^o4-22	CONTEXTE n^o4-22	CONTEXTE n^o4-22	19
23	lien n^o23	200	HTTP/1.1 200 OK	n^o4-23	utf-8,via curl	-	DUMP n^o4-23	CONTEXTE n^o4-23	CONTEXTE n^o4-23	57
24	lien n^o24	200	HTTP/1.1 200 OK	n^o4-24	utf-8,via curl	-	DUMP n^o4-24	CONTEXTE n^o4-24	CONTEXTE n^o4-24	1
25	lien n^o25	200	HTTP/1.1 200 OK	n^o4-25	utf-8,via curl	-	DUMP n^o4-25	CONTEXTE n^o4-25	CONTEXTE n^o4-25	2
26	lien n^o26	200	HTTP/1.1 200 OK	n^o4-26	utf-8,via charset	-	DUMP n^o4-26	CONTEXTE n^o4-26	CONTEXTE n^o4-26	26
27	lien n^o27	200	HTTP/1.1 200 OK	n^o4-27	utf-8,via curl	-	DUMP n^o4-27	CONTEXTE n^o4-27	CONTEXTE n^o4-27	43
28	lien n^o28	200	HTTP/1.1 200 OK	n^o4-28	utf-8,via curl	-	DUMP n^o4-28	CONTEXTE n^o4-28	CONTEXTE n^o4-28	17
29	lien n^o29	200	HTTP/1.1 200 OK	n^o4-29	utf-8,via charset	-	DUMP n^o4-29	CONTEXTE n^o4-29	CONTEXTE n^o4-29	34
30	lien n^o30	200	HTTP/1.1 200 OK	n^o4-30	utf-8,via curl	-	DUMP n^o4-30	CONTEXTE n^o4-30	CONTEXTE n^o4-30	2
31	lien n^o31	200	HTTP/1.1 200 OK	n^o4-31	utf-8,via curl	-	DUMP n^o4-31	CONTEXTE n^o4-31	CONTEXTE n^o4-31	2
32	lien n^o32	200	HTTP/1.1 200 OK	n^o4-32	utf-8,via curl	-	DUMP n^o4-32	CONTEXTE n^o4-32	CONTEXTE n^o4-32	4
33	lien n^o33	200	HTTP/1.1 200 OK	n^o4-33	utf-8,via curl	-	DUMP n^o4-33	CONTEXTE n^o4-33	CONTEXTE n^o4-33	4
34	lien n^o34	200	HTTP/1.1 200 OK	n^o4-34	utf-8,via curl	-	DUMP n^o4-34	CONTEXTE n^o4-34	CONTEXTE n^o4-34	1
35	lien n^o35	200	HTTP/1.1 200 OK	n^o4-35	utf-8,via curl	-	DUMP n^o4-35	CONTEXTE n^o4-35	CONTEXTE n^o4-35	2
36	lien n^o36	200	HTTP/1.1 200 OK	n^o4-36	utf-8,via curl	-	DUMP n^o4-36	CONTEXTE n^o4-36	CONTEXTE n^o4-36	5
37	lien n^o37	200	HTTP/1.1 200 OK	n^o4-37	utf-8,via curl	-	DUMP n^o4-37	CONTEXTE n^o4-37	CONTEXTE n^o4-37	7
38	lien n^o38	200	HTTP/1.1 200 OK	n^o4-38	utf-8,via curl	-	DUMP n^o4-38	CONTEXTE n^o4-38	CONTEXTE n^o4-38	2
39	lien n^o39	200	HTTP/1.1 200 OK	n^o4-39	utf-8,via curl	-	DUMP n^o4-39	CONTEXTE n^o4-39	CONTEXTE n^o4-39	7
40	lien n^o40	200	HTTP/1.1 200 OK	n^o4-40	utf-8,via curl	-	DUMP n^o4-40	CONTEXTE n^o4-40	CONTEXTE n^o4-40	2
41	lien n^o41	200	HTTP/1.1 200 OK	n^o4-41	utf-8,via curl	-	DUMP n^o4-41	CONTEXTE n^o4-41	CONTEXTE n^o4-41	19
42	lien n^o42	200	HTTP/1.1 200 OK	n^o4-42	utf-8,via curl	-	DUMP n^o4-42	CONTEXTE n^o4-42	CONTEXTE n^o4-42	20
43	lien n^o43	200	HTTP/1.1 200 OK	n^o4-43	utf-8,via curl	-	DUMP n^o4-43	CONTEXTE n^o4-43	CONTEXTE n^o4-43	21
44	lien n^o44	200	HTTP/1.1 200 OK	n^o4-44	utf-8,via curl	-	DUMP n^o4-44	CONTEXTE n^o4-44	CONTEXTE n^o4-44	6
45	lien n^o45	200	HTTP/1.1 200 OK	n^o4-45	utf-8,via curl	-	DUMP n^o4-45	CONTEXTE n^o4-45	CONTEXTE n^o4-45	19
46	lien n^o46	200	HTTP/1.1 200 OK	n^o4-46	utf-8,via curl	-	DUMP n^o4-46	CONTEXTE n^o4-46	CONTEXTE n^o4-46	13
47	lien n^o47	200	HTTP/1.1 200 OK	n^o4-47	utf-8,via curl	-	DUMP n^o4-47	CONTEXTE n^o4-47	CONTEXTE n^o4-47	12
48	lien n^o48	200	HTTP/1.1 200 OK	n^o4-48	utf-8,via curl	-	DUMP n^o4-48	CONTEXTE n^o4-48	CONTEXTE n^o4-48	9
49	lien n^o49	200	HTTP/1.1 200 OK	n^o4-49	utf-8,via curl	-	DUMP n^o4-49	CONTEXTE n^o4-49	CONTEXTE n^o4-49	17
50	lien n^o50	200	HTTP/1.1 200 OK	n^o4-50	utf-8,via curl	-	DUMP n^o4-50	CONTEXTE n^o4-50	CONTEXTE n^o4-50	8
51	lien n^o51	200	HTTP/1.1 200 OK	n^o4-51	utf-8,via curl	-	DUMP n^o4-51	CONTEXTE n^o4-51	CONTEXTE n^o4-51	40
52	lien n^o52	200	HTTP/1.1 200 OK	n^o4-52	utf-8,via curl	-	DUMP n^o4-52	CONTEXTE n^o4-52	CONTEXTE n^o4-52	24
53	lien n^o53	200	HTTP/1.1 200 OK	n^o4-53	utf-8,via curl	-	DUMP n^o4-53	CONTEXTE n^o4-53	CONTEXTE n^o4-53	9
54	lien n^o54	200	HTTP/1.1 200 OK	n^o4-54	utf-8,via curl	-	DUMP n^o4-54	CONTEXTE n^o4-54	CONTEXTE n^o4-54	6
55	lien n^o55	200	HTTP/1.1 200 OK	n^o4-55	utf-8,via curl	-	DUMP n^o4-55	CONTEXTE n^o4-55	CONTEXTE n^o4-55	11
56	lien n^o56	200	HTTP/1.1 200 OK	n^o4-56	utf-8,via curl	-	DUMP n^o4-56	CONTEXTE n^o4-56	CONTEXTE n^o4-56	22
57	lien n^o57	200	HTTP/1.1 200 OK	n^o4-57	utf-8,via curl	-	DUMP n^o4-57	CONTEXTE n^o4-57	CONTEXTE n^o4-57	7
58	lien n^o58	200	HTTP/1.1 200 OK	n^o4-58	utf-8,via curl	-	DUMP n^o4-58	CONTEXTE n^o4-58	CONTEXTE n^o4-58	17
59	lien n^o59	200	HTTP/1.1 200 OK	n^o4-59	utf-8,via charset	-	DUMP n^o4-59	CONTEXTE n^o4-59	CONTEXTE n^o4-59	48
60	lien n^o60	200	HTTP/1.1 200 OK	n^o4-60	utf-8,via charset	-	DUMP n^o4-60	CONTEXTE n^o4-60	CONTEXTE n^o4-60	38
61	lien n^o61	200	HTTP/1.1 200 OK	n^o4-61	utf-8,via charset	-	DUMP n^o4-61	CONTEXTE n^o4-61	CONTEXTE n^o4-61	13
62	lien n^o62	200	HTTP/1.1 200 OK	n^o4-62	utf-8,via charset	-	DUMP n^o4-62	CONTEXTE n^o4-62	CONTEXTE n^o4-62	4
63	lien n^o63	200	HTTP/1.1 200 OK	n^o4-63	utf-8,via charset	-	DUMP n^o4-63	CONTEXTE n^o4-63	CONTEXTE n^o4-63	27
64	lien n^o64	200	HTTP/1.1 200 OK	n^o4-64	utf-8,via curl	-	DUMP n^o4-64	CONTEXTE n^o4-64	CONTEXTE n^o4-64	23
65	lien n^o65	200	HTTP/1.1 200 OK	n^o4-65	utf-8,via curl	-	DUMP n^o4-65	CONTEXTE n^o4-65	CONTEXTE n^o4-65	2
66	lien n^o66	200	HTTP/1.1 200 OK	n^o4-66	utf-8,via curl	-	DUMP n^o4-66	CONTEXTE n^o4-66	CONTEXTE n^o4-66	11
67	lien n^o67	200	HTTP/1.1 200 OK	n^o4-67	utf-8,via curl	-	DUMP n^o4-67	CONTEXTE n^o4-67	CONTEXTE n^o4-67	4
68	lien n^o68	200	HTTP/1.1 200 OK	n^o4-68	utf-8,via curl	-	DUMP n^o4-68	CONTEXTE n^o4-68	CONTEXTE n^o4-68	12
69	lien n^o69	200	HTTP/1.1 200 OK	n^o4-69	utf-8,via curl	-	DUMP n^o4-69	CONTEXTE n^o4-69	CONTEXTE n^o4-69	56
70	lien n^o70	200	HTTP/1.1 200 OK	n^o4-70	utf-8,via curl	-	DUMP n^o4-70	CONTEXTE n^o4-70	CONTEXTE n^o4-70	9
71	lien n^o71	200	HTTP/1.1 200 OK	n^o4-71	utf-8,via curl	-	DUMP n^o4-71	CONTEXTE n^o4-71	CONTEXTE n^o4-71	18
72	lien n^o72	200	HTTP/1.1 200 OK	n^o4-72	utf-8,via curl	-	DUMP n^o4-72	CONTEXTE n^o4-72	CONTEXTE n^o4-72	11
73	lien n^o73	200	HTTP/1.1 200 OK	n^o4-73	utf-8,via curl	-	DUMP n^o4-73	CONTEXTE n^o4-73	CONTEXTE n^o4-73	11
74	lien n^o74	200	HTTP/1.1 200 OK	n^o4-74	utf-8,via curl	-	DUMP n^o4-74	CONTEXTE n^o4-74	CONTEXTE n^o4-74	8
75	lien n^o75	200	HTTP/1.1 200 OK	n^o4-75	utf-8,via curl	-	DUMP n^o4-75	CONTEXTE n^o4-75	CONTEXTE n^o4-75	3
76	lien n^o76	200	HTTP/1.1 200 OK	n^o4-76	utf-8,via curl	-	DUMP n^o4-76	CONTEXTE n^o4-76	CONTEXTE n^o4-76	4
77	lien n^o77	200	HTTP/1.1 200 OK	n^o4-77	utf-8,via curl	-	DUMP n^o4-77	CONTEXTE n^o4-77	CONTEXTE n^o4-77	22
78	lien n^o78	200	HTTP/1.1 200 OK	n^o4-78	utf-8,via curl	-	DUMP n^o4-78	CONTEXTE n^o4-78	CONTEXTE n^o4-78	12
79	lien n^o79	200	HTTP/1.1 200 OK	n^o4-79	utf-8,via curl	-	DUMP n^o4-79	CONTEXTE n^o4-79	CONTEXTE n^o4-79	26
80	lien n^o80	200	HTTP/1.1 200 OK	n^o4-80	utf-8,via curl	-	DUMP n^o4-80	CONTEXTE n^o4-80	CONTEXTE n^o4-80	4
81	lien n^o81	200	HTTP/1.1 200 OK	n^o4-81	utf-8,via curl	-	DUMP n^o4-81	CONTEXTE n^o4-81	CONTEXTE n^o4-81	7
82	lien n^o82	200	HTTP/1.1 200 OK	n^o4-82	utf-8,via curl	-	DUMP n^o4-82	CONTEXTE n^o4-82	CONTEXTE n^o4-82	21
83	lien n^o83	200	HTTP/1.1 200 OK	n^o4-83	utf-8,via curl	-	DUMP n^o4-83	CONTEXTE n^o4-83	CONTEXTE n^o4-83	9
84	lien n^o84	200	HTTP/1.1 200 OK	n^o4-84	utf-8,via curl	-	DUMP n^o4-84	CONTEXTE n^o4-84	CONTEXTE n^o4-84	45
85	lien n^o85	200	HTTP/1.1 200 OK	n^o4-85	utf-8,via curl	-	DUMP n^o4-85	CONTEXTE n^o4-85	CONTEXTE n^o4-85	13
86	lien n^o86	200	HTTP/1.1 200 OK	n^o4-86	utf-8,via curl	-	DUMP n^o4-86	CONTEXTE n^o4-86	CONTEXTE n^o4-86	4
87	lien n^o87	200	HTTP/1.1 200 OK	PA n° 4-87	iso-8859-1,via charset	DUMP n^o4-87	DUMP n^o4-87	CONTEXTE n^o4-87	CONTEXTE n^o4-87	53
88	lien n^o88	200	HTTP/1.1 200 OK	n^o4-88	utf-8,via curl	-	DUMP n^o4-88	CONTEXTE n^o4-88	CONTEXTE n^o4-88	18
89	lien n^o89	200	HTTP/1.1 200 OK	PA n° 4-89	us-ascii,via file	DUMP n^o4-89	DUMP n^o4-89	CONTEXTE n^o4-89	CONTEXTE n^o4-89	25
90	lien n^o90	200	HTTP/1.1 200 OK	n^o4-90	utf-8,via curl	-	DUMP n^o4-90	CONTEXTE n^o4-90	CONTEXTE n^o4-90	2
91	lien n^o91	200	HTTP/1.1 200 OK	n^o4-91	utf-8,via curl	-	DUMP n^o4-91	CONTEXTE n^o4-91	CONTEXTE n^o4-91	26
92	lien n^o92	200	HTTP/1.1 200 OK	n^o4-92	utf-8,via curl	-	DUMP n^o4-92	CONTEXTE n^o4-92	CONTEXTE n^o4-92	25
93	lien n^o93	200	HTTP/1.1 200 OK	n^o4-93	utf-8,via curl	-	DUMP n^o4-93	CONTEXTE n^o4-93	CONTEXTE n^o4-93	15
94	lien n^o94	200	HTTP/1.1 200 OK	n^o4-94	utf-8,via curl	-	DUMP n^o4-94	CONTEXTE n^o4-94	CONTEXTE n^o4-94	19
95	lien n^o95	200	HTTP/1.1 200 OK	n^o4-95	utf-8,via curl	-	DUMP n^o4-95	CONTEXTE n^o4-95	CONTEXTE n^o4-95	5
96	lien n^o96	200	HTTP/1.1 200 OK	n^o4-96	utf-8,via curl	-	DUMP n^o4-96	CONTEXTE n^o4-96	CONTEXTE n^o4-96	28
97	lien n^o97	200	HTTP/1.1 200 OK	n^o4-97	utf-8,via curl	-	DUMP n^o4-97	CONTEXTE n^o4-97	CONTEXTE n^o4-97	3
98	lien n^o98	200	HTTP/1.1 200 OK	n^o4-98	utf-8,via curl	-	DUMP n^o4-98	CONTEXTE n^o4-98	CONTEXTE n^o4-98	12
99	lien n^o99	200	HTTP/1.1 200 OK	n^o4-99	utf-8,via curl	-	DUMP n^o4-99	CONTEXTE n^o4-99	CONTEXTE n^o4-99	2
100	lien n^o100	200	HTTP/1.1 200 OK	n^o4-100	utf-8,via curl	-	DUMP n^o4-100	CONTEXTE n^o4-100	CONTEXTE n^o4-100	2
101	lien n^o101	200	HTTP/1.1 200 OK	n^o4-101	utf-8,via curl	-	DUMP n^o4-101	CONTEXTE n^o4-101	CONTEXTE n^o4-101	2
102	lien n^o102	200	HTTP/1.1 200 OK	n^o4-102	utf-8,via curl	-	DUMP n^o4-102	CONTEXTE n^o4-102	CONTEXTE n^o4-102	37
103	lien n^o103	200	HTTP/1.1 200 OK	n^o4-103	utf-8,via curl	-	DUMP n^o4-103	CONTEXTE n^o4-103	CONTEXTE n^o4-103	17
104	lien n^o104	200	HTTP/1.1 200 OK	n^o4-104	utf-8,via curl	-	DUMP n^o4-104	CONTEXTE n^o4-104	CONTEXTE n^o4-104	14
105	lien n^o105	200	HTTP/1.1 200 OK	n^o4-105	utf-8,via curl	-	DUMP n^o4-105	CONTEXTE n^o4-105	CONTEXTE n^o4-105	27
106	lien n^o106	200	HTTP/1.1 200 OK	n^o4-106	utf-8,via curl	-	DUMP n^o4-106	CONTEXTE n^o4-106	CONTEXTE n^o4-106	7
107	lien n^o107	200	HTTP/1.1 200 OK	n^o4-107	utf-8,via curl	-	DUMP n^o4-107	CONTEXTE n^o4-107	CONTEXTE n^o4-107	11
108	lien n^o108	200	HTTP/1.1 200 OK	n^o4-108	utf-8,via curl	-	DUMP n^o4-108	CONTEXTE n^o4-108	CONTEXTE n^o4-108	17

Au top

Table n^o5(espagnol)
N°	Lien	Code CURL	Statut CURL	Page Aspirée	Encodage Initial	DUMP initial	DUMP UTF-8	CONTEXTE UTF-8	CONTEXTE HTML UTF-8	Fq MOTIF
1	lien n^o1	200	HTTP/1.1 200 OK	n^o5-1	utf-8,via curl	-	DUMP n^o5-1	CONTEXTE n^o5-1	CONTEXTE n^o5-1	13
2	lien n^o2	200	HTTP/1.1 200 OK	n^o5-2	utf-8,via curl	-	DUMP n^o5-2	CONTEXTE n^o5-2	CONTEXTE n^o5-2	3
3	lien n^o3	200	HTTP/1.1 200 OK	n^o5-3	utf-8,via curl	-	DUMP n^o5-3	CONTEXTE n^o5-3	CONTEXTE n^o5-3	9
4	lien n^o4	200	HTTP/1.1 200 OK	n^o5-4	utf-8,via curl	-	DUMP n^o5-4	CONTEXTE n^o5-4	CONTEXTE n^o5-4	21
5	lien n^o5	200	HTTP/1.1 200 OK	n^o5-5	utf-8,via curl	-	DUMP n^o5-5	CONTEXTE n^o5-5	CONTEXTE n^o5-5	9
6	lien n^o6	200	HTTP/1.1 200 OK	n^o5-6	utf-8,via curl	-	DUMP n^o5-6	CONTEXTE n^o5-6	CONTEXTE n^o5-6	4
7	lien n^o7	200	HTTP/1.1 200 OK	n^o5-7	utf-8,via curl	-	DUMP n^o5-7	CONTEXTE n^o5-7	CONTEXTE n^o5-7	18
8	lien n^o8	200	HTTP/1.1 200 OK	n^o5-8	utf-8,via curl	-	DUMP n^o5-8	CONTEXTE n^o5-8	CONTEXTE n^o5-8	3
9	lien n^o9	200	HTTP/1.1 200 OK	n^o5-9	utf-8,via curl	-	DUMP n^o5-9	CONTEXTE n^o5-9	CONTEXTE n^o5-9	8
10	lien n^o10	200	HTTP/1.1 200 OK	n^o5-10	utf-8,via curl	-	DUMP n^o5-10	CONTEXTE n^o5-10	CONTEXTE n^o5-10	4
11	lien n^o11	200	HTTP/1.1 200 OK	n^o5-11	utf-8,via curl	-	DUMP n^o5-11	CONTEXTE n^o5-11	CONTEXTE n^o5-11	5
12	lien n^o12	200	HTTP/1.1 200 OK	n^o5-12	utf-8,via curl	-	DUMP n^o5-12	CONTEXTE n^o5-12	CONTEXTE n^o5-12	11
13	lien n^o13	200	HTTP/1.1 200 OK	n^o5-13	utf-8,via curl	-	DUMP n^o5-13	CONTEXTE n^o5-13	CONTEXTE n^o5-13	5
14	lien n^o14	200	HTTP/1.1 200 OK	n^o5-14	utf-8,via curl	-	DUMP n^o5-14	CONTEXTE n^o5-14	CONTEXTE n^o5-14	15
15	lien n^o15	200	HTTP/1.1 200 OK	n^o5-15	utf-8,via curl	-	DUMP n^o5-15	CONTEXTE n^o5-15	CONTEXTE n^o5-15	21
16	lien n^o16	200	HTTP/1.1 200 OK	n^o5-16	utf-8,via curl	-	DUMP n^o5-16	CONTEXTE n^o5-16	CONTEXTE n^o5-16	7
17	lien n^o17	200	HTTP/1.1 200 OK	n^o5-17	utf-8,via curl	-	DUMP n^o5-17	CONTEXTE n^o5-17	CONTEXTE n^o5-17	16
18	lien n^o18	200	HTTP/1.1 200 OK	n^o5-18	utf-8,via curl	-	DUMP n^o5-18	CONTEXTE n^o5-18	CONTEXTE n^o5-18	9
19	lien n^o19	200	HTTP/1.1 200 OK	n^o5-19	utf-8,via curl	-	DUMP n^o5-19	CONTEXTE n^o5-19	CONTEXTE n^o5-19	5
20	lien n^o20	200	HTTP/1.1 200 OK	n^o5-20	utf-8,via curl	-	DUMP n^o5-20	CONTEXTE n^o5-20	CONTEXTE n^o5-20	22
21	lien n^o21	200	HTTP/1.1 200 OK	n^o5-21	utf-8,via curl	-	DUMP n^o5-21	CONTEXTE n^o5-21	CONTEXTE n^o5-21	12
22	lien n^o22	200	HTTP/1.1 200 OK	n^o5-22	utf-8,via curl	-	DUMP n^o5-22	CONTEXTE n^o5-22	CONTEXTE n^o5-22	5
23	lien n^o23	200	HTTP/1.1 200 OK	n^o5-23	utf-8,via curl	-	DUMP n^o5-23	CONTEXTE n^o5-23	CONTEXTE n^o5-23	2
24	lien n^o24	200	HTTP/1.1 200 OK	n^o5-24	utf-8,via curl	-	DUMP n^o5-24	CONTEXTE n^o5-24	CONTEXTE n^o5-24	3
25	lien n^o25	200	HTTP/1.1 200 OK	n^o5-25	utf-8,via curl	-	DUMP n^o5-25	CONTEXTE n^o5-25	CONTEXTE n^o5-25	4
26	lien n^o26	200	HTTP/1.1 200 OK	n^o5-26	utf-8,via curl	-	DUMP n^o5-26	CONTEXTE n^o5-26	CONTEXTE n^o5-26	6
27	lien n^o27	200	HTTP/1.1 200 OK	n^o5-27	utf-8,via curl	-	DUMP n^o5-27	CONTEXTE n^o5-27	CONTEXTE n^o5-27	13
28	lien n^o28	200	HTTP/1.1 200 OK	n^o5-28	utf-8,via curl	-	DUMP n^o5-28	CONTEXTE n^o5-28	CONTEXTE n^o5-28	17
29	lien n^o29	200	HTTP/1.1 200 OK	n^o5-29	utf-8,via curl	-	DUMP n^o5-29	CONTEXTE n^o5-29	CONTEXTE n^o5-29	4
30	lien n^o30	200	HTTP/1.1 200 OK	n^o5-30	utf-8,via curl	-	DUMP n^o5-30	CONTEXTE n^o5-30	CONTEXTE n^o5-30	11
31	lien n^o31	200	HTTP/1.1 200 OK	n^o5-31	utf-8,via curl	-	DUMP n^o5-31	CONTEXTE n^o5-31	CONTEXTE n^o5-31	5
32	lien n^o32	200	HTTP/1.1 200 OK	n^o5-32	utf-8,via curl	-	DUMP n^o5-32	CONTEXTE n^o5-32	CONTEXTE n^o5-32	2
33	lien n^o33	200	HTTP/1.1 200 OK	n^o5-33	utf-8,via curl	-	DUMP n^o5-33	CONTEXTE n^o5-33	CONTEXTE n^o5-33	3
34	lien n^o34	200	HTTP/1.1 200 OK	n^o5-34	utf-8,via curl	-	DUMP n^o5-34	CONTEXTE n^o5-34	CONTEXTE n^o5-34	15
35	lien n^o35	200	HTTP/1.1 200 OK	n^o5-35	utf-8,via curl	-	DUMP n^o5-35	CONTEXTE n^o5-35	CONTEXTE n^o5-35	8
36	lien n^o36	200	HTTP/1.1 200 OK	n^o5-36	utf-8,via curl	-	DUMP n^o5-36	CONTEXTE n^o5-36	CONTEXTE n^o5-36	10
37	lien n^o37	200	HTTP/1.1 200 OK	n^o5-37	utf-8,via curl	-	DUMP n^o5-37	CONTEXTE n^o5-37	CONTEXTE n^o5-37	6
38	lien n^o38	200	HTTP/1.1 200 OK	n^o5-38	utf-8,via curl	-	DUMP n^o5-38	CONTEXTE n^o5-38	CONTEXTE n^o5-38	6
39	lien n^o39	200	HTTP/1.1 200 OK	n^o5-39	utf-8,via curl	-	DUMP n^o5-39	CONTEXTE n^o5-39	CONTEXTE n^o5-39	10
40	lien n^o40	200	HTTP/1.1 200 OK	n^o5-40	utf-8,via curl	-	DUMP n^o5-40	CONTEXTE n^o5-40	CONTEXTE n^o5-40	8
41	lien n^o41	200	HTTP/1.1 200 OK	n^o5-41	utf-8,via curl	-	DUMP n^o5-41	CONTEXTE n^o5-41	CONTEXTE n^o5-41	14
42	lien n^o42	200	HTTP/1.1 200 OK	n^o5-42	utf-8,via curl	-	DUMP n^o5-42	CONTEXTE n^o5-42	CONTEXTE n^o5-42	6
43	lien n^o43	200	HTTP/1.1 200 OK	n^o5-43	utf-8,via curl	-	DUMP n^o5-43	CONTEXTE n^o5-43	CONTEXTE n^o5-43	8
44	lien n^o44	200	HTTP/1.1 200 OK	n^o5-44	utf-8,via curl	-	DUMP n^o5-44	CONTEXTE n^o5-44	CONTEXTE n^o5-44	4
45	lien n^o45	200	HTTP/1.1 200 OK	n^o5-45	utf-8,via curl	-	DUMP n^o5-45	CONTEXTE n^o5-45	CONTEXTE n^o5-45	2
46	lien n^o46	200	HTTP/1.1 200 OK	n^o5-46	iso-8859-15, via curl	DUMP n^o5-46-1	DUMP n^o5-46-2	CONTEXTE n^o5-46	CONTEXTE n^o5-46	3
47	lien n^o47	200	HTTP/1.1 200 OK	n^o5-47	iso-8859-15, via curl	DUMP n^o5-47-1	DUMP n^o5-47-2	CONTEXTE n^o5-47	CONTEXTE n^o5-47	11
48	lien n^o48	200	HTTP/1.1 200 OK	n^o5-48	iso-8859-15, via curl	DUMP n^o5-48-1	DUMP n^o5-48-2	CONTEXTE n^o5-48	CONTEXTE n^o5-48	2
49	lien n^o49	200	HTTP/1.1 200 OK	n^o5-49	iso-8859-15, via curl	DUMP n^o5-49-1	DUMP n^o5-49-2	CONTEXTE n^o5-49	CONTEXTE n^o5-49	3
50	lien n^o50	200	HTTP/1.1 200 OK	n^o5-50	iso-8859-15, via curl	DUMP n^o5-50-1	DUMP n^o5-50-2	CONTEXTE n^o5-50	CONTEXTE n^o5-50	2
51	lien n^o51	200	HTTP/1.1 200 OK	n^o5-51	utf-8,via curl	-	DUMP n^o5-51	CONTEXTE n^o5-51	CONTEXTE n^o5-51	3
52	lien n^o52	200	HTTP/1.1 200 OK	n^o5-52	utf-8,via curl	-	DUMP n^o5-52	CONTEXTE n^o5-52	CONTEXTE n^o5-52	7
53	lien n^o53	200	HTTP/1.1 200 OK	n^o5-53	utf-8,via curl	-	DUMP n^o5-53	CONTEXTE n^o5-53	CONTEXTE n^o5-53	2
54	lien n^o54	200	HTTP/1.1 200 OK	n^o5-54	utf-8,via curl	-	DUMP n^o5-54	CONTEXTE n^o5-54	CONTEXTE n^o5-54	5
55	lien n^o55	200	HTTP/1.1 200 OK	n^o5-55	utf-8,via curl	-	DUMP n^o5-55	CONTEXTE n^o5-55	CONTEXTE n^o5-55	3
56	lien n^o56	200	HTTP/1.1 200 OK	n^o5-56	utf-8,via curl	-	DUMP n^o5-56	CONTEXTE n^o5-56	CONTEXTE n^o5-56	15
57	lien n^o57	200	HTTP/1.1 200 OK	n^o5-57	utf-8,via curl	-	DUMP n^o5-57	CONTEXTE n^o5-57	CONTEXTE n^o5-57	21
58	lien n^o58	200	HTTP/1.1 200 OK	n^o5-58	utf-8,via curl	-	DUMP n^o5-58	CONTEXTE n^o5-58	CONTEXTE n^o5-58	7
59	lien n^o59	200	HTTP/1.1 200 OK	n^o5-59	utf-8,via curl	-	DUMP n^o5-59	CONTEXTE n^o5-59	CONTEXTE n^o5-59	4
60	lien n^o60	200	HTTP/1.1 200 OK	n^o5-60	utf-8,via curl	-	DUMP n^o5-60	CONTEXTE n^o5-60	CONTEXTE n^o5-60	9

Au top

Le Trameur

I.La présentation de Letrameur

L'essentiel du travail d'analyse est établi à l'aide du programme "Le Trameur", qui permet une approche aussi bien textométrique que lexicométrique (données quantitatives et qualitatives). Il s'articule autour des notions de "Trame" et de "Cadre", c'est-à-dire le repérage des différents niveaux hiérarchiques d'éléments dans le corpus (découpage et indexation des unités) et la représentation de l'organisation globale du corpus à travers ces niveaux. Ou encore, comme l'explique le site du Trameur :

La définition d'une Trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres, etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière, le Cadre textométrique.

Du fait de ses très larges possibilités, le Trameur est un outil complet et complexe avec lequel il faut prendre le temps de se familiariser. Toutefois, la seule partie qui nous intéresse vraiment pour ce projet, c'est l'onglet "Cooc" qui gère les calculs des co-occurrents autour d'un "pôle" dans le corpus. Ce pôle bien sûr, ce sera notre motif et une fois définis les paramètres du calcul, on obtient la représentation des mots qui se rencontrent le plus fréquemment autour du motif (graphe de co-occurrents) ainsi qu'un tableau qui les liste.
À signaler qu'il existe également une version en ligne du Trameur, iTrameur qui regroupe certaines fonctionnalités du programme, notamment les nuages de mots et les graphes de co-occurrents.

II.Les résultats

*cliquez pour l'image originale

1). Chinois par Letrameur

a.Sinogramme simplifié(CONTEXT)

b.Sinogramme simplifié(DUMP)

c.Sinogramme traditionnel(CONTEXT)

d.Sinogramme traditionnel(DUMP)

2). Chinois par Itrameur

a.Sinogramme simplifié(CONTEXT)

b.Sinogramme simplifié(DUMP)

c.Sinogramme traditionnel(CONTEXT)

**Dans l'image, on peut voir plusieurs pôles en tant que les dérivées de "壓力(stress)", mais on sait qu'un mot chinois n'a pas de dérivation. Donc pourquoi ce résultat? En fait, ce sont de faux mots dérivées qui sont effectivement des phrases, par exemple: un pôle est 應對壓力（se faire face au stress), c'est une phrase composant de deux mots: 應對(se faire face à) et 壓力(stress). Selon moi, ce problème est peut-être de l'origine du logiciel de segmentation qui segmente ces phrases comme un mot.

d.Sinogramme traditionnel(DUMP)

3).Anglais par letrameur

a.DUMP

4).Anglais par itrameur

a.DUMP

5).Français par letrameur

a.DUMP

4).Français par itrameur

a.DUMP

4).Espagnol par itrameur

a.DUMP

Nuages de mots

I. Chinois

Dans tous les quatre images, on peut trouver un caractère très pertinent:的, c'est une particule n'a pas de sens sémantique généralement, et c'est utilisée après un adjectif pour composer une unité ayant une fonction de qualifier. Ce sont le caractère le plus fréquenté dans le chinois.

1).Nuages de Sinogramme simplifié(CONTEXT)

Les mots les plus pertinents: 心理(psychologie)，孩子(enfant)，生活(vie)，缓解(ralentir)，影响(influencer)，情况(situation)，女性(femme)，工作(travail)，他们(ils)，我们(nous)，导致(conduire)

2).Nuages de Sinogramme simplifié(DUMP)

Les mots les plus pertinents: 我们(nous), 研究(recherches)，考试(exament)，学生(élève)，高三(Terminal)，时间(temps)，孩子(enfant)，情绪(sentiment)，问题(problème)，教育(éducation)，焦虑(angoisse)

3).Nuages de Sinogramme traditionnel(CONTEXT)

Les mots les plus pertinents: 健康(santé)，精神(esprit)，問題(problème)，考生(candidat à l'examen)，面對(se faire face à)，能力(compétence)，認為(croire)，因素(facteur)，生活(vie)，工作(travail)，發現(découbrir)

4).Nuages de Sinogramme traditionnel(DUMP)

Les mots les plus pertinents: 問題(problème)，心理(psychologie)，影響(influencer)，孩子(enfant)，可能(possible)，情緒(sentiment)，認為(coire)，焦慮(angoisse)，工作(travail)，生活(vie)，需要(besoin)

II. Français

1).Nuages de français(DUMP)

III. Anglais

1).Nuages d'anglais(DUMP)

IV. Espagnol

1).Nuages d'espagnol(DUMP)

Analyses

Comme cela avait été prévu par nos enseignants, il ne nous aura pas été possible d'aller au bout des analyses que nous aurions voulu faire, faute de temps. Nous nous étions, il est vrai, donné des objectifs un peu ambitieux dans la méthodologie que nous avions préalablement définie. Il s'agissait initialement de croiser les résultats de quatre analyses différentes, dont deux utilisaient deux variantes des corpus (avec et sans les mots du champ lexical du stress) et les deux autres portaient sur la recherche de mots dans des constructions syntaxiques particulières. À défaut, nous nous contenterons de présenter les observations que nous pouvons déduire de la recherche des co-occurrents en comparant les données fournies par les quatres langues, c'est-à-dire le minimum de ce que l'on peut faire avec le Trameur mais aussi le cœur de ce qui est attendu du projet.

Les premières conclusions à tirer concernent en fait la phase de nettoyage. Il n'est pas superflu de rappeler l'importance de cette étape, car elle est bien sûr déterminante pour les analyses. En fonction de la composition du filtre, on peut obtenir des résultats très différents ; il faut garder en tête qu'il n'est pas toujours possible d'éliminer toutes les "scories" que l'on souhaite, car à moins de dresser une liste exhaustive - ce qui revient au même que de purger manuellement le fichier - il faut recourir à des expressions régulières qui peuvent se montrer un peu "gourmandes" et l'on se retrouve avec un filtrage trop restrictif qui va même retirer du contenu que l'on aurait souhaité conserver. C'est une question d'ajustement, en fin de compte.

Du point de vue de l'interprétation, il faut reconnaître que les résultats ne sont moins parlants qu'on aurait souhaité ; il aurait certainement été profitable de procéder à une analyse quantitative approfondie. En effet, le logiciel d'analyses, le Trameur, permet d'exporter différents formats de types de résultats. Afin de mitiger ces conclusions, il faut reconnaître que le choix de types d'URLs sélectionnées et les différences de tailles de corpus peuvent avoir une incidence sur la comparaison absolue des résultats entre eux ; nous nous estimons cependant satisfaits de constater l'aboutissement de notre travail à des données qui pour ainsi dire, parlent d'elles-même.

I. Chinois

Les sinogrammes simplifiés et sinogrammes traditionnels sont les deux ensembles de caractères standards du chinois écrit contemporain.Comme ces deux écritures sont utilisées par gens de différentes régions, j'analyse ces deux écritures séparemment en comparant l'un à l'autre.

1.Les sinogrammes simplifiés

Les sinogrammes simplifiés sont utilisés en République populaire de Chine et à Singapour. La simplification de sinogrammes commence dans les années 90s au but de faciliter leur apprentissage et à créer un alphabet phonétique à base de litres latines. La simplification des sinogrammes est définie par huit règles formulées par Qian Xuanton en 1992.

Grace à ces règles, après la simplification, les caractères chinois gardent encore leurs caractéristiques, c’est pourquoi les utilisateurs de sinogrammes simplifiés peuvent reconnaître presque tous les sinogrammes traditionnels. Ce système de l’écriture tient une place importante dans la culture chinoise, parce que malgré les nombreuses langues parlées en Chine, les sinogramme simplifié restent très compréhensible par toute la population, donc on peut dire qu'ils symbolisent l’unité national.

1.1 Sur Stress

Quant au résultat à partir des fichiers contexte, les mots les plus fréquentés sont : 心理（psychologie），影响（influence），自己（soi-même），导致（donduire à），可能（possibilité），如何（comment），产生（produire）, 问题（problème）, selon ces mots, on peut découvrir que atour de mot clé, ce sont généralement des discussions sur ce problèmes:le domanie concerné est la psychologie, la discussion met l'accent sur les influences du stress, la cause du stress, et des hypothèses sur les possibilités des causes. Cepandent, on ne peut pas avoir une impression concrète sur le stress selon ce résultat :on ne sait aucun détail de discussion, mais on peut savoir que pour le stress, les chinois le prennent comme un problème psychologique personnel, et ils cherchent des faire des hypothèses pour résoudre ce problème et pour trouver les causes.

Le résultat des fichiers Dump est plus intéressant, les mots les plus fréquentés sont bien différents que ceux du résultat de Contexte: 学生（élève)，学校(école)，考（试)(examen)，老师(enseignant)，同学(camarades)，le résultat est très pertinent: le mot stress est mentionné le plus souvent pour les élèves chinois en raison des études, dans l'image de Wordclouds, on peut observer aussi des mots assez grands lié au thème d'étude: 教育(éducation)，高三(Terminale)，分数(points). Par conséquent, j'ai deux hypothèse pour ce résultat: les élèves chinois sont les gens les plus stressés en Chine; on se soucie le plus au problème du stress des enfants, et je suis portée à la dernière, puisque selon mes connaissances de la société de Chine, la conccurrence dans le domaine de travail est bien rigoureuse, et les adults ont aussi des problèmes du tress, mais par apport aux enfants, les adults ont plus de moyens à régler ce problème. De plus,la situation des élèves en Chine est un peu spéciale, la Chine est le pays le plus peuplé, chaque année des millions d'élèves participent au bac, et juste quelques dixaines milles de gens peuvent accéder à une université au premier niveau, pour des provinces très peuplé, le taux d'accès à une bonne université peut être 5%(Renminwang). D'une part, cette situation incite les enfant à travailler dur, d'une autre part, elle apporte le problème de stress.

2.Les sinogrammes traditionnel

Les sinogrammes traditionnels sont aujourd'hui utilisés à Hong Kong, Macao, Taïwan et certaines communautés chinoises expatriées, particulièrement celles originaires des pays précédemment cités ou qui émigrèrent avant la large adoption des caractères simplifiés dans la République Populaire de Chine.Pour ces régions les sites sont presque tous en utf-8, peut-être c'est parce que au 20e sciècle, elles ont plus de concatct avec les pays étrangers que la Chine continentale. Ça facilite la collection des ressources et le procédé d'analyse. Le seul problème est le logiciel de segmentation de Standford ne fonctionne pas très bien sur les sigogrammes traditionnel.

2.2 Sur stress

Dans le cas de sinogramme traditionnel, les résultats de Dump et de Contexte sont proches: le mot le plus fréquenté est "焦慮(angoisse)" qui est un entiment généralement causé par le tress, et il y a aussi des mots très fréquentés: 認為(penser)，面對(se faire face à)，研究(recherches)，健康(santé), un peu différent que dans les sinogrammes simplifiés qui traitent le stress dans le domaine de psychologie, le stress est plutôt un problème lié à la santé, et on peut aussi trouver l'occurence 患者（patient）dans le résultat, et je pense que à partir de ces occurrences, on peut observer que les gens ont une attitude positive au problème: ils choisissent se faire face au problème au lieu de le négliger, et il y a ausse des recherches sur ce problème, donc on peut savoir que les gens cherchent à comprendre ce problème ou à le résoudre. Les mots 考生(candidat à l'exament) 留學生(étudiant à l'étranger) sont aussi présentés dans la liste des occurrences les plus présentés, donc on peut savoir que les gens se concentrent plutôt aux élèves à l'étranger et à qui ont un examen, donc on peut supposer que les élèves ne sont pas généralement assez stressé que les élèves de Chine continentale parce que la société discute ce problème sur un groupe plus caractérisé.

II. Français

La notion de stress semble faire l’objet d’un certain nombre d’interrogations, on cherche à cerner des corrélations entre le stress et un certain nombre de paramètres (travail, âge, mode de vie..). On notera les co-occurents « travail », « employés », « jeunes », « ainés », « physique » (en examinant les contextes, on s’aperçoit qu’il s’agit de l’exercice physique, présenté comme un moyen de gérer son stress). Chose qui peut sembler plus étonnante, le stress est parfois vu comme quelque chose de « positif », il aurait des « bienfaits ». Cette attitude n’est pas partagée par tous, d’autres co-occurents de stress sont en effet « ravages » ou encore « mauvais ». D’autres adjectifs sont utilisés notamment « fatigués », « déprimés ». Comme pour l’espagnol, on retrouve également les co-occurents assez spécifiques « post » et « traumatique » qui composent l’expression post-traumatique. Dans ce corpus comme dans le corpus anglais, le co-occurent protéine apparaît, cela est sans doute dû à une découverte scientifique qui aurait fait l’objet d’articles au moment où nous avons constitué le corpus.

Concernant les pôle stressant et stressante, on s’aperçoit que ce sont des moments particuliers (« situation », « événement », « période »...) qui entraînent un état de stress chez les personnes, il est probable que le caractère stressant attribué à ce moment provienne du fait qu’il requière un changement, une adaptation, ou qu’il soit vu comme une rupture avec une situation antérieure connue.

III. Anglais

L’analyse des co-occurents en anglais montre une volonté de comprendre le stress (« how », « When »). C’est un problème qui est examiné sous toutes les coutures, on cherche à en identifier les causes (« source », « cause ») et effets (« signs ») sur l’organisme, notamment à travers des études (« study »). Une grande part est faite à la terminologie médicale avec des termes comme corps (« body »), cerveau (« brain »), cancer, dépression, anxiété (anxiety), hormones. On ne trouve pas parmi les co-occurents de solution concrète pour être moins stressé (« reduce », « relieve), même si cette question semble être une préoccupation majeure. Le stress fait partie de la vie quotidienne (« common »), c’est quelque chose qu’il faut gérer (« deal », « manage »), mesurer (« levels »), combattre (« tackle »). Comme pour le français, on notera une co-occurrence entre « situations » et « events » qui accompagnent fréquemment « stressful ». De plus, on remarque une utilisation très fréquente de l’insistance avec « stressed out », et du verbe « feel », ces derniers montrent que le stress apparaît comme une réalité intrinsèquement lié au ressenti individuel et donc au champ des émotions.

IV. Espagnol

Parmi les mots les plus fréquents, on trouve des mots en lien avec la santé: "postraumático" (post-traumatique), "ansiedad" (anxiété), "salud" (santé), "crónico" (chronique), hormonas (hormones).Le stress est également associé au monde du travail, comme le montre la présence de "laboral". Comme pour le français, on retrouve la présence d'un adjectif indiquant le caractère positif du stress, "positiva". Le stress ne laisse pas indifférent, pour le qualifier l'un des mots les plus fréquents est l'adjectif fuente (fort), d'autres co-occurents comme "sufre" (souffre), "frustración" (frustration), "afecta" (affecte) rendent apparent à quel point le stress affectent les personnes qui en subissent les effets. Les co-occurents présents dans ce corpus semble cohérents avec ceux observés dans les corpus anglais et français, il y est également question de mesurer le stress comme l'indique "niveles" (niveau) et d'identifier ses causes comme le montre "provoca" (provoque).

On peut trouver que le mot "ansiedad"(anxiété/angoisse) est très présent comme dans le cas de chinois en sinogramme traditionnel, et à partir des mots "doctor"(doctor),"enfermedades"(maladie) et "virale"(virale) on sait que dans l'espagnol le stress lié aussi au domaine de santé comme dans le chinois, et ça apporte généralement des effets négatifs. Le verbe "liberarte"(se libérer) est intéressant puisque on ne le trouve pas dans autres langues, peut-être les espagnols trouve que le tresse enchaiîne la liberté d'esprit.

Les résultats de co-occurrents en espagnol semblent très cohérents en comparaison avec les autres langues (santé, . On retrouve un vocabulaire essentiellement psychologique, qui exprime des notions liées aux émotions, au ressenti (frustration, trouble, anxiété). La notion de travail est également fortement associée au stress - sans trop de surprise - au travers de l'adjectif laboral ("relatif au travail, professionnel") qui est toujours dans les valeurs de fréquence les plus élevées. L'aspect toutefois le plus saillant de ces données consiste en la récurrence de termes issus du domaine scientifique (post-traumatique, chronique, symptômes) il est normal de retrouver une préoccupation liée à la santé et au caractère médical de la présence du stress mais on remarque que certains de ces termes renvoient à l'idée d'évaluation (niveau, réponse, positif, élevé) ou de quantification (certain, trop). Il est intéressant aussi d'observer qu'en ce qui concerne la catégorie grammaticale des verbes, on retrouve aussi bien des marqueurs de l'état du patient (affecter, souffrir) que de la guérison (en particulier, se libérer). Enfin, en moindre proportion on trouve des termes qui renvoient à l'aspect causal (provoquer, source)./p>

Qui sommes nous ?

◍ Mengwei YANG

Étudiante chinoise de Master I TAL à Paris 3, j'ai fait avant Master LFA(langue française appliquée) à Paris IV. Dans ce projet, je fait la partie d'analyse du chinois(sinogramme traditionnel/sinogramme simplifié) et du site.

Langues: chinois, anglais, français

◍ Marine COURTIN

Je suis en M1 TAL à Paris 3, auparavant j'ai fait une licence d'anglais (LLCE) à l'Université de Rennes 2. Pour ce projet, je me suis occupée de l'analyse des corpus en anglais et en français.

Langues: anglais, français

◍ Laurent LEVY

étudiant en M1 TAL inscrit à l'université de Nanterre-Paris X. A suivi un parcours d'étude allant de la grammaire comparée à la linguistique générale. S'est occupé des analyses en espagnol et français.

Langues: anglais, français