Difficultés Rencontrées

Durant la réalisation de notre projet nous avons rencontré quelques petits problèmes.
Heureusement, nous avons toujours réussi à les solutionner.


1) Installation de la machine virtuelle

Les scripts que nous avons écrits sont des scripts en Shell Bash.
Justine a installé une machine virtuelle pour travailler sous Ubuntu, Meryl travaillait déjà sous Mac et pour Laetitia les choses ont été plus laborieuses. Elle a finalement décidé de travailler sous cygwin.

En effet, Cygwin permet d'executer des applications linux sur Windows. Vous pouvez l'installer directement sur le site de Cygwin.

2) Problèmes d'aspiration

Au cours de notre travail, nous nous sommes rendu compte que notre script n'aspirait pas l'intégralité des pages web.
En y regardant de plus près, nous nous sommes aperçues que les pages qui n'étaient pas aspirées étaient des pages dont l'url avait était mis à jour.
Il semblerait donc que la commande curl ne soit pas capable d'aspirer ce genre de pages.
Nous avons donc installé la commande wget afin d'aspirer correctement.


3) L'installation de la commande lynx

La commande lynx nous a permis grâce à son argument -dump à récupérer uniquement le textes de nos urls.
Un dump est une copie d'une base de données ou d'un système de fichiers.
Avant d'utiliser cette commande il a fallu l'installer, ce qui n'a pas été chose facile pour Meryl qui code sous Mac Yosemite.
Heureusement cette petite Url miracle permet de télécharger la commande (Merci à Serge Fleury !):
http://rudix.org/packages/lynx.html
Sous Linux il vous suffit d'entrer en ligne de commande "sudo apt-get install lynx".

4) Problèmes avec les Dumps de fichiers

Par la suite, nous nous sommes également rendu compte que notre script ne faisait pas tous les dumps.
Nous avons donc décidé de dumper manuellement via le terminal les fichier manquants.

Dump manuel de la page 1-9.txt sur mac

Les fichiers dumpés ont ensuite été ajoutés manuellement au tableau.
Nous en avons fait de même pour récupérer le nombre d'occurrences des mots choisis.

Pour finir, nous avons créé un un mini script indépendant pour récupérer les contextes, ce afin de ne pas relancer à chaque modification de motif tout le gros programme.


Retour en haut de page