Nous allons vous présenter ici,chaque étape de notre travail. Les tableaux et le script auxquels nous allons faire référence sont disponibles dans l’onglet Script de ce site, et vous pourrez avoir plus de détails dans les billets de notre blog de travail

    Étape 1: Création du Blog

    Pour réaliser ce projet au sein de master 1 TAl, nous avons en premier lieu, créé un blog qui nous a servi de journal de bord. Vous pourrez y découvrir le cheminement de notre travail ainsi que les différentes interrogations qui ont pu se présenter à nous durant la réalisation de ce projet. N’hésitez pas à y jeter un oeil ici ou encore dans l’onglet blog que vous retrouverez sur le site.

      Étape 2: Sélection des URLS

      Tout d’abord, nous avons fait le choix de prendre des URLs d’articles de presse, de blogs mais aussi des URLs provenant des sites des ministères de la santé de chaque pays. En effet, il fallait une certaine cohérence entre le choix des sources utilisées et le sujet traité. Pour les témoignages, nous avons préféré les blogs tandis que pour les différents traitements proposés par le corps médical nous avons préféré les articles de presse.

      Nous n'avons eu aucune difficulté à trouver des URLs en français et en anglais ; cependant, la recherche des URLs en japonais fut beaucoup plus laborieuse. En effet, les maladies mentales sont assez taboues dans la société japonaise, ainsi trouver des chiffres fut facile mais trouver des témoignages fut beaucoup plus compliqué. De même, la schizophrénie n'étant pas considérée comme une maladie dans ce pays, la description des symptômes fut aussi complexe à trouver. C'est pour cela que nous avons décidé de traiter 50 URLs par langue et pas plus.

        Étape 3: Aspiration des pages

        L’objectif pour cette étape est de faire un tableau à trois colonnes comprenant :

        - le numéro de l’URL

        - l’URL

        - la page aspirée de l’URL

        Ainsi, il faut tout d'abord numéroter chaque URL de manière automatisée. Puis, il faut mettre chaque lien à disposition d'un utilisateur pour finalement aspirer l’URL.

        Cette opération a pour but de conserver le contenu de l’URL.

        Pour l’aspiration des pages, nous avons le choix entre la fonction « wget -O » ou « curl -o ». Pour notre part, nous avons décidées d’utiliser wget.

        Une fois cette opération terminée, pour vérifier que nous avons bien réussi à faire ce que nous voulions, il faut vérifier :

        - La présence et le bon fonctionnement de la page HTML créée dans notre répertoire TABLEAUX

        - La présence des pages aspirées sous format HTML dans notre répertoire PAGES ASPIREES

        Si nous avons bien tout ça, alors ça foncionne !!!

          Étape 4: Dumps

          Une fois les pages aspirées, on va créer un DUMP, c'est-à-dire un fichier qui ne contient que le texte de notre page. Cette étape va être réalisée grâce à la commande « lynx » en bash.

          Pour que nous puissions exploiter ces DUMPs correctement, il faut s'assurer de l'encodage des pages. Ainsi, pour que la tâche soit plus simple, nous avons opté pour un codage en UTF8. Cela nous mène à deux possibilités:

          - soit la page est déjà en UTF8, et dans ce cas on la garde sans y toucher ;

          - soit la page n'est pas en UTF8, auquel cas on la convertit en UTF8 et on fait en sorte de l'enregistrer comme telle.

            Étape 5: Contextes

            Cette étape nous mène à ajouter une colonne supplémentaire à notre tableau, et le contexte ne sera fait qu’à partir des DUMPs en UTF8 !

              Étape 6: Index

              Pour continuer l'analyse du contenu de nos fichiers, nous avons créé un index à partir de chaque DUMP utf8. Nous avons obtenu une liste classée dans l’ordre décroissant de tous les mots présents ainsi que le nombre de fois où ils apparaissent.

              Cette étape nous a permis d'ajouer une dernière colonne à nos tableaux.

                Étape 7: Concaténation en fichiers globaux

                Pour montrer l'automatisation maximale et pour éviter ainsi d'analyser les DUMPs en contexte un par un, nous avons concaténé les DUMPs (en et hors contexte); ils sont ainsi disponibles à la fin du tableau dans la colonne qui leur correspond.

                Et voilà, nos tableaux sont terminés !!!

                  Galerie d'images

                  pix pix pix pix pix pix pix pix pix