La vie multilingue du mot

Patriotisme

Learn More

The multilingual life of the word

Patriotism

Learn More

多语生活之词汇

爱国主义

Learn More

Présentation

Ce projet concerne un thème du mot "patrotisme" vu sous les angles passés et futurs des Français, des Américains, et des Chinois. Il s'agit de 3 langues en travail: le français, l'anglais, et le chinois, et d'environ 300 URLs

Patriotisme

Pourquoi le "patriotisme"? Selon le Wikipédia, le patriotisme désigne le dévouement d'un individu envers son pays qu'il reconnait comme étant sa patrie, mais il existe toujours les différentes voix sur ce sujet, ce qui m'intéressent beaucoup. De plus, les URLs concernés sont souvant bien pertinants du sujet, avec lesquels on obtiendra un résultat plus satisfaisant.

  • Rechercher des URLs

    En vue de la finalité du projet, à savoir qu'il y a peu d'ambiguïté du "patriotisme", la détection automatique des contextes linguistiques est assez satisfaisante.

  • Création d’un tableau

    Afin de classer les futurs résultats, il nous a fallu créer un tableau en HTML à l’intérieur de notre script bash.

  • Aspiration des pages

    La commande wget nous a permis d’automatiser l’aspiration des pages des différentes URLs sélectionnées, ainsi que leur enregistrement sur le disque local, dans le répertoire PAGES-ASPIREES préalablement créé.

  • Récupération du texte brut

    La commande lynx permet de récupérer le contenu textuel de la page aspirée et une redirection vers un fichier texte sauvegarde ces données dans le répertoire DUMP.

  • Récupération du contexte

    Avant de récupérer les contextes voulus du mot "sens" par la commande egrep, il nous a fallu définir les motifs propres à chaque langue.

  • Création des nuages

    Concaténer les fichiers dump et les fichiers texte des contextes où apparaît le mot "sens" et les conduire dans différentes applications qui font des "nuages".