All premium Magento themes at magentothemesworld.com!
Des tableaux, des nuages et des arbres
Les tableaux
Ci-dessous quelques lignes des tableaux construits colonne par colonne en khmer et en français
Khmer :
Khmer | ||||||||
n° | URL | Page aspiree | r-curl | Dump initial | Dump UTF-8 | Contextes-txt | Contextes-html | Nb occ |
1 | http://khmer.ka-set.info/content/view/2471/41/ | 2.html | 0 | - | 2-utf8.txt | 2-utf8.txt | 2-utf8.html | 0 |
3 | http://khmer.ka-set.info/content/view/347/41/ | 3.html | 0 | - | 3-utf8.txt | 3-utf8.txt | 3-utf8.html | 0 |
4 | http://khmer.ka-set.info/content/view/365/41/ | 4.html | 0 | - | 4-utf8.txt | 4-utf8.txt | 4-utf8.html | 0 |
5 | http://khmer.ka-set.info/content/view/219 | 5.html | 0 | - | 5-utf8.txt | 5-utf8.txt | 5-utf8.html | 0 |
Français :
Français | |||||||
n° | URL | Page aspiree | r-curl | Dump initial | Dump UTF-8 | Contextes-txt | Contextes-html |
1 | http://fr.wikipedia.org/wiki/Biocarburant | - | 0 BAD | - | - | - | - |
5 | http://semencemag.org/biocarburants-debats-ouverts.html | 5.html | 0 | 5.txt (iso-8859-1) | 5-utf8.txt | 5-utf8.txt | 5-utf8.html |
Sur la dernière ligne du tableau deux cellules contiennent les fichiers contextes concaténés. C'est ce fichier global qui sera utilisé pour constituer les tagcloud.
  | Fichier DUMP global 51 fichier(s) | Fichier CONTEXTES global 51 fichier(s) |   |
Chaque colonne correspond à une étape du traitement.
- La première colonne mentionne le numéro de la ligne et de l'url traité.
- La deuxième colonne contient l'url.
- La troisième colonne : commande curl, aspiration de la page
- La quatrième colonne : vérifie que l'aspiration a été faite, si oui on continue le traitement sinon on s'arrête.
- La cinquième colonne contient le fichier dump initial (commande lynx-dump), et mentionne l'encodage de départ s'il est différent de l'utf-8.
- La sixième colonne contient le fichier dump convertit en utf-8 au format texte.
- La septième colonne contient les fichiers contextes en format texte (minigrep)
- La huitième colonne comporte les fichiers contextes au format html.
Pour visualiser les tableaux en entier cliquez ici
Nuages, arbres, nuages arborés
les nuages
Wordle
N.B. : Wordle ne fonctionne pas pour les machines qui n'ont pas Java.
Le nuage arboré
C'est sur le site Treecloud que ce nuage arboré a été élaboré.
Le treecloud du fichier Dump concaténé
On peut visualiser le nombre d'occurrences des mots qui sont dans le même contexte que le mot biocarburant
Tagxedo
Ce nuage intègre les mots vides, c'est pourquoi ce sont ceux-là qui ressortent le plus du nuage. Du coup, on ne voit plus vraiment les mots en contexte avec le mot biocarburant.