Projet Master TAL

Les étapes du Projet:

Choix du mot:

Pour commencer notre travail, il nous fallait un mot . L’idée était de trouver un terme afin d’en distinguer les différents contextes d’utilisation. Au début, on avait opté pour le mot « parfum » et puis après plusieurs réflexions et recherches, on a décidé de choisir le mot « pain ». On est ensuite passé à l'étape de la traduction:

Traduction vers l'arabe : خبز

Création d'un fichier d'URLS :

Nous avons cherché des URLs contenant de termes associés sur le fidèle moteur de recherche Google. On a défini les domaines de la recherche d'URLs : politique, religieux.... On a aussi diversifié le type de pages Web récupérées : articles, blogs, forums… etc. Après avoir trouvé nos URLs, on les a regroupés dans un fichier texte.

Préparation de l'environnement de travail :

En utilisant la commande « mkdir » sur le Terminal, on a pu créer l'arborescence de travail . Chaque répertoire est utile car il regroupera nos fichiers crée à chaque étape du projet:

Le répertoire URLS : qui regroupe les fichiers textes

Le répertoire PROGRAMMES : qui contient les programmes Bash crée au fur et à mesure du projet

Le répertoire PAGES-ASPIREES : regroupe les pages que l'on a aspiré grace à la commande « curl ». Les pages sont au format html

Le répertoire TABLEAUX contient des tableaux crée à partir du script.

Le répertoire DUMP-TXT regroupe les fichiers "dumpés" grâce à lynx et à la commande "lynx -dump". Il contient du texte brut.

Le répertoire CONTEXTES contient deux sortes de fichiers différents. Des fichiers au format texte extraits grâce à la commande "egrep". Et des fichiers au format html extraits grâce à la commande "minigrep". Les deux concernent le mot étudié de manière contextuelle.

Le répertoire FICHIERSGLOBAUX qui contient les contextes globaux et les dump globaux. Ce sont donc les contextes et les dump des deux langues qui sont regroupés dans un même fichier qui s'appelle CONTEXTES_GLOBAUX et DUMP_GLOBAUX. Ils permettent par exemple la création de nuages.

Le répertoire IMAGES pour finir regroupe toutes les images que l'on souhaite utiliser pour le site.

Le Script:

Après avoir créé notre arborescence, nous sommes passés à la création du script qui nous permettra de présenter dans les différentes langues, sous forme de tableaux en HTML, les liens cliquables des URLs, des pages aspirées, des textes brut ou dump et des contextes du mot.

Notre sript bash contient les étapes suivantes:

- Aspiration locale des pages: WGET

Après avoir redirigé le lien de chaque URL ligne par ligne, la commande wget nous a permis d’aspirer les pages des différentes URLs choisis et de les enregistrer dans le répertoire PAGES-ASPIREES.

Pour savoir l’encodage des caractères, nous avons utilisé la commande egrep pour récupérer l’encodage utilisé dans la page aspirée. Si l'encodage n'est pas en UTF-8 ou n'est pas connu, nous utilisons la commande egrep pour chercher le charset (character encoding standard) défini dans le code source de la page HTML aspirée.

- Récupération du texte brut des pages ("DUMP"): LYNX

La commande lynx permet de récupérer le contenu textuel de la page aspirée et le rediriger vers un fichier texte sauvegardé dans le répertoire DUMP-TEXT.

Avant de lancer la commande lynx, on doit s'assurer que l'encodage de la page aspirée est en UTF-8 pour avoir un fichier de texte brut en UTF-8 aussi, si l'encodage n'est pas en UTF-8, on utilise la commande iconv pour ré-encoder tous les fichiers textuels en UTF-8.

- Recherche du motif ou du contexte des mots clefs dans le texte brut: EGREP

Avant de récupérer les contextes, nous avons utilisé la commande egrep -i avec les expressions régulières pour chercher les mots clefs en différentes langues:

Lest motifs sont:

Français: ( pain | Pain )

Arabe: (خبز )

Puis nous avons créé deux types de fichiers de résultats : l’un en texte brut, qui nous servira pour les nuages de mots, et l’autre en HTML.

- Concaténation des fichiers Contextes et Dump et Index dans "Fichiers Globaux". Ces fichiers nous serviront à la création des nuages et l'analyse de Trameur.