Sur le disque dur,
nous avons créé une espace qui représente l'arboresecence des
fichiers constituant le projet. L'objectif
est de bien organiser et classifier tous les fichiers servant à
notre projet. Chaque dossier porte un nom donnant une indication
sur le type de fichiers qu'il contiendra (clique
sur les liens ci-dessous pour voir le contenue de chaque dossier)
:
le dossier
CONTEXTES regroupe
les fichiers issus de l'extraction contextuelle par egrep des mots
traités dans les fichiers du dossier DUMP-TXT
le dossier DUMP-TEXT regroupe les fichiers issus du traitement par lynx sur les pages aspirées du dossier PAGES-ASPIREES
le dossier PAGES-ASPIREES regroupe les fichiers issus de l'aspiration" par wget des urls contenues dans les fichiers situés dans le dossier URLs
le dossier PROGRAMMES regroupe l'ensemble des scripts construits pour ce projet
le dossier TABLEAUX regroupe l'ensemble des tableaux construits par le script, ces tableaux regroupant 9 colonnes : l'url initiale, la page aspirée, le dump textuel, le contexte ...
le dossier URLS regroupe trois fichiers dont l'un contient les URLs français, l'autres contiennent les URLs chinois à traiter.
le dossier FICHIERGLOBAUX regroupe les fichiers issus du traitement de contexte du motif, ainsi les fichiers concaténant tous les fichiers issus du traitement par lynx et iconv
le dossier minigrepmultilingue-html contient tous le programme 'minigrepmultilingue.pl' et sa ressource nécessaire
Le système d'exploitation qu'on utilise pour ce projet est Ubuntu. L'éditeur des scripts est Gedit.
le dossier DUMP-TEXT regroupe les fichiers issus du traitement par lynx sur les pages aspirées du dossier PAGES-ASPIREES
le dossier PAGES-ASPIREES regroupe les fichiers issus de l'aspiration" par wget des urls contenues dans les fichiers situés dans le dossier URLs
le dossier PROGRAMMES regroupe l'ensemble des scripts construits pour ce projet
le dossier TABLEAUX regroupe l'ensemble des tableaux construits par le script, ces tableaux regroupant 9 colonnes : l'url initiale, la page aspirée, le dump textuel, le contexte ...
le dossier URLS regroupe trois fichiers dont l'un contient les URLs français, l'autres contiennent les URLs chinois à traiter.
le dossier FICHIERGLOBAUX regroupe les fichiers issus du traitement de contexte du motif, ainsi les fichiers concaténant tous les fichiers issus du traitement par lynx et iconv
le dossier minigrepmultilingue-html contient tous le programme 'minigrepmultilingue.pl' et sa ressource nécessaire
Le système d'exploitation qu'on utilise pour ce projet est Ubuntu. L'éditeur des scripts est Gedit.
Pour construire
cette arborescence des fichiers, nous avons programmé un script
Bash (script01-arborescence.sh), l'exécution du script nécessite
que l'on se positionne à la racine de l'arborescence (le dossier
PROJET-MOT-SUR-LE-WEB) dans laquelle on va créer tous les
sous-dossiers.
Un
petit script pour créer le répertoire et arborescence du projet:
#!/bin/bash
#!/bin/bash
# pour se placer dans le répertoire du travail
cd ~;
#se placer dans Bureau
cd Bureau;
#se placer dans Bureau
cd Bureau;
# créer le dossier du projet
mkdir PROJET-MOT-SUR-LE-WEB;
cd PROJET-MOT-SUR-LE-WEB;
mkdir CONTEXTES;
mkdir DUMP-TEXT;
mkdir IMAGES;
mkdir PAGES-ASPIREES;
mkdir PROGRAMMES;
mkdir TABLEAUX;
mkdir URLS;
mkdir FICHIERGLOBAUX;
mkdir FICHIERGLOBAUX;
mkdir minigrepmultilingue-html;
# pour lancer le script, introduire la commande : bash
script01-arborescence.sh