Le tableau de liens

Pour accéder au tableau, cliquez sur l'image.



Ce tableau de liens résume chacun des traitements que nous avons fait subir à nos urls. On peut voir qu'au cours des différentes étapes certaines pertes sont à déplorer... En effet, parfois l'aspiration des pages ne peut pas se faire, pour diverses raisons que l'on retrouve dans la colonne retour curl : lorsque le retour de la fonction curl est le chiffre 0 cela signifie que l'url a été bien aspirée au chaud dans votre ordinateur et qu'elle attend patiemment la prochaine étape! Pour les autres, le traitement ne peut pas être poursuivi...

Certaines urls sont également perdues à l'étape de récupération des dumps : lorsque l'encodage initial n'est pas détecté, il ne peut pas être convertit en utf-8 par iconv et donc l'url en question n'est pas traitée ulterieurement. Pour les autres urls rescapées, la chaine de tratement se poursuivra sans autres encombres : les contextes et nombres d'occurences seront bien récupérés.

Enfin, on remarque que chaque tableau de langue (tableau n°1 = urls en français et tableau n°2 = urls en portugais) possède une entrée fichier dumps globaux et une entrée fichier contextes globaux. Ces fichiers sont la concaténation de tous les dumps et contextes récupérés, ce sont eux qui vont nous permettre d'analyser notre corpus d'un point de vue linguistique. Pour ce faire, il suffit de les soumettre aux outils appropriés!

Nuages de mots



Nous avons utilisé Wordle, une application en ligne qui permet de créer la représentation d'un texte sous la forme de nuages de mots. Le nuage reprend les principaux mots du texte : les mots les plus proéminents sont ceux qui possèdent le plus grand nombre d'occurences dans le texte. Nous avons donc soumis notre fichier dumps globaux pour chacune de nos langues et voici les nuages génerés :



Worlde - nuage de mots français

Worlde - nuage de mots portugais

Un autre outil, TreeCloud permet également de mettre en évidence les mots les plus fréquents dans un texte mais sous la forme d'un nuage arboré.Il donne même la possibilité de voir le nombre d'occurrences d'un mot en cliquant dessus. Ci-dessous, le résultat pour nos dumps globaux :

Treecloud - nuage arboré français

Treecloud - nuage arboré portugais

Bien que ces outils soient ludiques et utiles en particulier pour des textes volumineux, ils n'en reste pas moins que l'analyse qu'ils proposent ne suffit pas à une étude linguistique approndie. Pour répondre à notre problématique nous avons voulu utiliser une calculatrice sémantique afin de calculer la proximité sémantique entre les mots des nuages. Cependant, l'application en ligne ne fonctionnait pas... Néanmoins, nous avons utilisé un outil aux capacités d'analyse bien plus performantes: le Trameur