Projet M1 TAL 2012-2013

s p a m a l o t

Le déroulement du projet

Les tableaux de liens ont été obtenus grâce à l'exécution de ce programme. Celui-ci a été créé selon les étapes suivantes :

Après avoir choisi notre thème et nos langues, et constitué nos fichiers d'URLs, nous avons écrit le programme Bash permettant d'insérer ces URLs dans un tableau en HTML.

Il nous a ensuite fallu aspirer les pages web grâce à la commande curl. Le contenu des pages aspirées a été stocké grâce à lynx, ce qui nous a permis de travailler dessus.

Là s'est posé le problème de l'encodage des pages aspirées. Afin que les résultats soient uniformes et lisibles par tous, il fallait qu'ils soient encodés en UTF-8. Nous avons donc dû uniformiser l'encodage des pages aspirées : c'est là qu'est intervenue la commande file -i. Cette commande nous a permis de détecter l'encodage de la page.

Si elle était en UTF-8, nous utilisions la commande dump pour récupérer le texte brut. À partir de ce texte brut, nous appliquions une expression régulière pour extraire la ligne dans laquelle se trouvait le mot qui nous intéressait, et dans le même temps compter le nombre d'occurrences de ce mot.

En revanche, si la page n'était pas encodée en UTF-8, il fallait la convertir. Nous avons utilisé la commande iconv, qui ne dispose néanmoins pas de tous les encodages existants dans sa librairie. C'est pourquoi certains de nos fichiers n'ont pas pu être convertis : leur conversion nécessitait l'utilisation d'une commande qui dépassait nos compétences.

NucleoTeam

L'énergie nucléaire

Le déroulement du projet

Projet

Liens