Oxygen by Dusty

Project in detail

01.01.2018

Nous avons choisi de travailler sur l’expression « énergies vertes » en français, chinois et espagnol (Amérique-Latine), pour comparer ses emplois et ses connotations dans les médias des pays correspondants. Dans le contexte thématique de l’écologie et de l’environnement, ce terme est porteur de nombreux enjeux politiques et sociaux que nous allons tenter d’analyser.

Ce projet a utilisé le script principalement pour générer des tableaux dans les différentes langues contenant les données(corpus) curlés d'une centaine d'urls, les données sont sous forme de html page-aspiré, txt dumped-text, et aussi grâce à minigrep et le motif qu'on choisit, les contextes sont construites pour faciliter l'observation et la comparaison entre langues. À la fin du projet, on analyse les corpus obtenu par itrameur--c'est un logiciel magique de l'analyse textométrique de données. Donc ceci est l'arborescence du projet.
1* SCRIPT
Notre script s'occupe de la construction des tableaux et de préparer les Dumped-texts sous un format spécial pour rentrer dans ITRAMEUR.
La construction des tableaux inclut les étapes qui importent, implémentent MINIGREP et extraient MOTIF pour trouver les CONTEXTES de notre motifs choisis.
À noter que le script va lire les chemins d'un fichier "paramètre" et ce fichier est stocké dans le répertoire projetencadre/PROGRAMMES; le fichier exécutable de MINIGREP est stocké sous le répertoire TIM, qui est supérieur que "projetencadre". EN gros, le chemin des répertoires est home/tim/projetencadre (à ce niveau on a aussi fichier du MINIGREP)/PROGRAMMES/script (à ce niveau on a aussi fichier du paramètre.txt)
projetencadre inclut URLS, PROGRAMMES, IMAGES, TABLEAUX, PAGE-ASPIRÉE, DUMP-TEXT, CONTEXTES.
PROGRAMMES inclut script(construction.sh), paramètre.txt, et les trois fichiers motifs.

Àprès avoir lu les chemins, on a accès à des fichiers contenant URLS, on fait avec CURL les pages_aspirée et avec LYNX les dump_text. Ensuite, on rajoute ces informations petit à petit dans les tableaux. Pour gérer les encodages des fichiers, on préfère de les convertir tous en UTF-8, ci-dessous, c'est le schéma des procédés.

Sauf que dans le script, quand CURL a échoué à trouver l'encodage, avec la page aspirée, "FILE -i" n'a pas bien fonctionné(et le fichier exécutable de SF ne marche pas sur linux), donc on a trouvé l'encodage dans la page aspirée par une cherche avec "egrep", c'est la meilleure solution qu'on pouvait trouver dans cette situation. Et il prouve que cette méthode a bien trouvé l'encodage.
egrep -i -o "[^><]*meta[^><]*charset[^><]*" ./PAGES-ASPIREES/$compteurtable-$compteur.html|sed -r s'/.*(charset=.*)/\1/g'|cut -d"=" -f2 |sed -r "s/\"//g"|sed -r "s/\///g"| tr 'a-z' 'A-Z'|sed -r "s/\r//g"|sed -r "s/\n//g"|sed -r "s/ //g"

À la suite, avec les motifs pour chaque langue, on importe MINIGREP; 
Les motifs sont:
CN : "\b绿色能源|水能|生物能|太阳能|风能|地热能|海洋能|可再生能源\b";
FR : "\b(énergies vertes)|(\w+ vert(s)?)|(\w+ verte(s)?)|hydroélectricité|renouvelable(s)|solaire|éolienne|hydraulique|Biomasse|géothermique\b";
ES : "\b(energía(s)? verde(s)?)|(\w+ verde(s)?)|energía|renovable(s)?|hidráulica|(solar térmica)|Biomasa|solar|eólica|geotérmica|mareomotriz\b";
Dès qu'on a les CONTEXTES, on commence à lier tous les contextes dans la langue pour préparer un fichier pour ITRAMEUR, pareil pour tous les denmp-texts.

2* ITRAMEUR ANALYSE TEXTOMÉTRIQUE 
--voir la partie ITRAMEUR