BrownShadow

Répertoire et arborescence du projet

Sur le disque dur, nous avons créé une espace qui représente l'arboresecence des fichiers constituant le projet. L'objectif est de bien organiser et classifier tous les fichiers servant à notre projet. Chaque dossier porte un nom donnant une indication sur le type de fichiers qu'il contiendra (clique sur les liens ci-dessous pour voir le contenue de chaque dossier) :

le dossier CONTEXTES regroupe les fichiers issus de l'extraction contextuelle par egrep des mots traités dans les fichiers du dossier DUMP-TXT

le dossier DUMP-TEXT regroupe les fichiers issus du traitement par lynx sur les pages aspirées du dossier PAGES-ASPIREES

le dossier PAGES-ASPIREES regroupe les fichiers issus de l'aspiration" par wget des urls contenues dans les fichiers situés dans le dossier URLs

le dossier PROGRAMMES regroupe l'ensemble des scripts construits pour ce projet

le dossier TABLEAUX regroupe l'ensemble des tableaux construits par le script, ces tableaux regroupant 9 colonnes : l'url initiale, la page aspirée, le dump textuel, le contexte ...

le dossier URLS regroupe trois fichiers dont l'un contient les URLs français, l'autres contiennent les URLs chinois à traiter.

le dossier FICHIERGLOBAUX regroupe les fichiers issus du traitement de contexte du motif, ainsi les fichiers concaténant tous les fichiers issus du traitement par lynx et iconv

le dossier minigrepmultilingue-html contient tous le programme 'minigrepmultilingue.pl' et sa ressource nécessaire

Le système d'exploitation qu'on utilise pour ce projet est Ubuntu. L'éditeur des scripts est Gedit.

Pour construire cette arborescence des fichiers, nous avons programmé un script Bash (script01-arborescence.sh), l'exécution du script nécessite que l'on se positionne à la racine de l'arborescence (le dossier PROJET-MOT-SUR-LE-WEB) dans laquelle on va créer tous les sous-dossiers.

Un petit script pour créer le répertoire et arborescence du projet:
#!/bin/bash

# pour se placer dans le répertoire du travail

cd ~;
#se placer dans Bureau
cd Bureau;

# créer le dossier du projet

mkdir PROJET-MOT-SUR-LE-WEB;

cd PROJET-MOT-SUR-LE-WEB;

mkdir CONTEXTES;

mkdir DUMP-TEXT;

mkdir IMAGES;

mkdir PAGES-ASPIREES;

mkdir PROGRAMMES;

mkdir TABLEAUX;

mkdir URLS;
mkdir FICHIERGLOBAUX;

mkdir minigrepmultilingue-html;

# pour lancer le script, introduire la commande : bash script01-arborescence.sh

La vie multilingue du mot "aimer" sur le web