Traitement d’un site web en entier

Pour télécharger un site internet dans son intégralité, nous avons utilisé la commande :

wget --mirror -r -e robots=off https://www.lemonde.fr

-r : de manière réccursive

-e robots=off : sans tenir compte du fichier robots.txt

Nous avons ensuite utilisé pickup.sh qui va rechercher le syntagme dans les fichiers téléchargés, puis concatene.sh qui concatène les contextes obtenus.

Pour plus de détails, nous vous recommendons cet article de notre blog, qui explique comment nous avons utilisé ces outils