Selon Wikipedia, un shell Unix est un interpréteur de commandes destiné aux systèmes d'exploitation Unix et de type Unix qui permet d'accéder aux fonctionnalités internes du système d'exploitation.
Les principales commandes UNIX permettent de réaliser des opérations allant des plus complexes, comme par exemple changer un mot de passe d'utilisateur, lancer un programme, jusqu'aux plus simples, telles organiser les informations stockées sur notre disque dur dans des fichiers et des répertoires. Toutes ces opérations sont irréversibles.
Les commandes peuvent être accompagnées par des options et des arguments, qui font partie de la syntaxe Unix et qui ont le rôle d’ajouter des informations supplémentaires.
Voici quelques commandes qui ont été utilisées fréquemment dans le cadre de ce projet :
man nom_de_commande
affiche à l’écran le manuel des commandes ; pour faire afficher des pages supplémentaires du manuel, il faut appuyer sur la barre d’espacement.
pwd
affiche le positionnement courant dans l’arborescence
cd
achange de répertoire pour aller à la position indiqué par le chemin ; le déplacement est descendent d’un répertoire appelé parent vers les répertoires fils.
mkdir
créé un répertoire
ls
affiche le contenu d'un répertoire, soit les fichiers et les sous-répertoires
cat
affiche le contenu d’un fichier (ou de plusieurs fichiers par concaténation)
cp fichier1 fichier2
copie le contenu d’un fichier dans un autre fichier
cp fichier répertoire
copie le contenu d’un fichier dans un répertoire souhaité
echo
affiche l'information indiquée comme son option
grep
cherche et affiche une chaîne de caractères dans un fichier
iconv
convertit l'encodage d'un ou de plusieurs fichiers dans un encodage souhaité
file
détermine le type de fichier
cut
découpe certaines parties de chaque ligne d'un fichier
cURL est un logiciel utilisé pour transférer sur le disque local le contenu d'un fichier disponible à une adresse d'URL. Dans le cadre de notre projet, ce logiciel nous a aidés à aspirer les pages internet de notre corpus. Les résultats de l'aspiration : fichiers en format html.
Lynx est un navigateur web utilisé en ligne de commande, qui affiche exclusivement le texte présent sur les pages web ainsi parcourues.
Son rôle dans le cadre de notre projet a été de nous fournir le texte brut à partir des pages aspirées en format html.
Options spécifiques
-dump
réalise l'extraction et le stockage local du contenu textuel d'une page web
-nolist
permet à Lynx d’ignorer les listes de liens présentes dans les pages web dumpées
Perl est un langage de programmation et ses fonctionnalités nous ont
aidés à réaliser la partie la plus importante de notre projet, soit
l'extraction des contextes, leur sauvegarde dans des fichiers
spécifiques et le comptage des occurrences de quelques mots-clés.
Html est un langage qui aide à communiquer des informations sur le web.
Un premier exercice d'utilisation de ce langage a consisté à incorporer dans le script de notre programme écrit en Bash-Shell des balises html pour la création d'une page en format html contenant un tableau.Un deuxième exercice html réside dans la réalisation de ce site web même, à l'aide d'un éditeur html (css).
KompoZer est un éditeur HTML. A mon avis, il est extrêmement
convivial pour les personnes qui ne sont pas familiarisées avec la
création et la manipulation du contenu web.
Treecloud est un outil textométrique disponible en ligne,
moins sophistiqué. Les résultats sont présentés sous formes d'arbres.
Toujours un outil textométrique, Wordle présente les résultats sous
forme de nuages de mots.
Unix MAN pages, http://unixhelp.ed.ac.uk/CGI/man-cgi
cURL tutorial, http://curl.haxx.se/libcurl/c/libcurl-errors.html
Html pour les débutants, http://www.lehtml.com/html/index.htm
Le Trameur, http://www.tal.univ-paris3.fr/trameur/
Wordle, www.wordle.net
Treecloud, www.treecloud.org