Sur le disque dur, nous avons créé une espace qui représente l'arboresecence des fichiers constituant le projet. L'objectif est de bien organiser et classifier tous les fichiers servant à notre projet. Chaque dossier porte un nom donnant une indication sur le type de fichiers qu'il contiendra (clique sur les liens ci-dessous pour voir le contenue de chaque dossier) :
  • le dossier CONTEXTES regroupe les fichiers issus de l'extraction contextuelle par egrep des mots traités dans les fichiers du dossier DUMP-TXT

    le dossier DUMP-TEXT regroupe les fichiers issus du traitement par lynx sur les pages aspirées du dossier PAGES-ASPIREES

    le dossier PAGES-ASPIREES regroupe les fichiers issus de l'aspiration" par wget des urls contenues dans les fichiers situés dans le dossier URLs

    le dossier PROGRAMMES regroupe l'ensemble des scripts construits pour ce projet

    le dossier TABLEAUX regroupe l'ensemble des tableaux construits par le script, ces tableaux regroupant 9 colonnes : l'url initiale, la page aspirée, le dump textuel, le contexte ...


    le dossier URLS regroupe trois fichiers dont l'un contient les URLs français, l'autres contiennent les URLs chinois à traiter.

    le dossier FICHIERGLOBAUX regroupe les fichiers issus du traitement de contexte du motif, ainsi les fichiers concaténant tous les fichiers issus du traitement par lynx et iconv

    le dossier minigrepmultilingue-html contient tous le programme 'minigrepmultilingue.pl' et sa ressource nécessaire


    Le système d'exploitation qu'on utilise pour ce projet est
    Ubuntu. L'éditeur des scripts est Gedit.
  • Pour construire cette arborescence des fichiers, nous avons programmé un script Bash (script01-arborescence.sh), l'exécution du script nécessite que l'on se positionne à la racine de l'arborescence (le dossier PROJET-MOT-SUR-LE-WEB) dans laquelle on va créer tous les sous-dossiers.

    Un petit script pour créer le répertoire et arborescence du projet:
    #!/bin/bash
    # pour se placer dans le répertoire du travail
    cd ~;
    #se placer dans Bureau
    cd Bureau;
    # créer le dossier du projet
    mkdir PROJET-MOT-SUR-LE-WEB;
    cd PROJET-MOT-SUR-LE-WEB;
    mkdir CONTEXTES;
    mkdir DUMP-TEXT;
    mkdir IMAGES;
    mkdir PAGES-ASPIREES;
    mkdir PROGRAMMES;
    mkdir TABLEAUX;
    mkdir URLS;
    mkdir FICHIERGLOBAUX;
    mkdir minigrepmultilingue-html;
    # pour lancer le script, introduire la commande : bash script01-arborescence.sh