Le script final réalisé sous Bash

Pour voir le script, cliquez sur l'image.

Ce script final effectue chacune des étapes nécessaires au traitement de nos urls et va nous permettre d'analyser les informations tirées de notre corpus de travail. Les résultats de cette chaine de traitement ont été rangés dans un tableau de liens.

Les commandes utilisées



Plusieurs commandes bash ont été utilisées pour la réalisation de notre script. Nous allons vous en donner les significations afin de comprendre les différents traitements que nous avons fait subir à nos urls.
Cependant, il en existe encore de nombreuses!!! C'est pourquoi il ne faut pas hésiter à utiliser la commande man, qui donne toutes les informations sur l'utilisation d'une commande et dont la syntaxe est la suivante : man nom_de_la _commande



Commandes élémentaires



cd chemin (relatif ou absolu) : permet de changer de répertoire à partir de notre position dans l'arborescence de travail.

mkdir nom du répertoire : permet de créer un nouveau répertoire dans la position à laquelle on se trouve dans l'arborescence de travail.

cat fichier : permet de lire le contenu d'un fichier de façon linéaire. Ce contenu peut être rediriger vers un autre fichier grâce aux chevrons de redirection : le chevron simple cat fichier_entrée > fichier_sortie ecrase le contenu du fichier de redirection et le remplace par le contenu du fichier sur lequel on utilise la commande. Pour simplement ajouter ce contenu à la suite du contenu du fichier de redirection il faut utiliser les doubles chevrons cat fichier_entrée >> fichier_sortie.

echo " contenu " : permet d'afficher le contenu de ce qui se trouve entre les guillemets. Ce contenu peut alors être redirigé dans un fichier à l'aide des chevrons de redirection (voir commande cat pour leur utilisation).

for élément in ensemble {instructions} : permet de créer une boucle qui réalisera les mêmes instructions pour chaque élément d'un ensemble défini.

if condition then instructions : permet de créer une boucle dont les instructions ne seront executées que si la condition est respectée. La structure se termine par fi et est suivie de else, dans laquelle on trouvera les instructions à suivres si la condition du if n'est pas remplie.

Commandes spécifiques



curl [- options] [url] : permet, en utilisant un logiciel de téléchargement de pages Web, d'aspirer une page web c'est-à-dire de sauvegarder localement et à l’identique le contenu d’une URL. Dans notre script nous l'avons utilisée avec l'option -o qui permet de rediriger le contenu aspiré dans un fichier de sortie, fichier duquel on donne le chemin.

lynx [- options] [chemin ou url] : permet de manipuler le texte d'une page web puisque lynx est un navigateur en ligne de commande. Nous l'avons utilisée avec les options -dump -nolist -display_charset qui permettent respectivement de rediriger le contenu textuel d'une page Web vers un fichier texte, de supprimer les liens présents dans la page, et de choisir l'encodage pour l'affichage des caractères.

egrep [- options] "motif" [fichier] : permet de rechercher un motif décrit à l'aide d'une expression régulière dans une chaine textuelle. Nous l'avons utilisée avec les options -o -i -q -m[nombre] qui permettent respectivement d'afficher uniquement le motif recherché, d'ignorer la casse, de ne pas afficher les résultat si la commande fonctionne et de n’extraire que la ligne numéro[nombre] où l’occurrence du motif est trouvée.

iconv [- options] [fichier_entrée et fichier_sortie] : permet de convertir un texte d'un encodage à un autre. Nous l'avons utilisée avec les options -f et -t qui permettent respectivement de spécifier l'encodage du fichier_entrée et l'encodage voulu pour le fichier_sortie.

Nous avons également utilisé un petit programme sous perl, "minigrep mltilingue" qui nous a permis de rechercher un motif dans le texte brut à partir d'une expression régulière et d'en récupérer les contextes, avec une belle pésentation, en un fichier html. Il est d'autant plus utile lorsque les langues à étudier nécessitent un encodage de type Unicode. Vous pouvez récuperer ce programme ici.