Script

Voici le descriptif du script bash qui a servi à générer les tableaux répertoriant les URLS, les fichiers et les contextes du mot analysé en français et en arabe.

Vous pouvez le télécharger ici !

En résumé...

Au cours du premier semestre, nous avons opté pour l’étude du terme « banlieue » en trois langues : le français, l’arabe et le slovaque pour les raisons explicitées ici.

Notre hypothèse de départ était que le mot « banlieue » présentait un emploi spécifique à l’imaginaire collectif français (de France) qui ne serait pas le même en Algérie ni en Slovaquie.

De ce fait nous avons commencé par rassembler 50 urls de presse pour chaque langue avec notre motif. Ensuite, extraire le motif des pages avec ses contextes et enfin, afficher les résultats dans un tableau html.
Pour ce faire, nous avons traduit cet algorithme en un programme bash, c’est-à-dire, transformer cette suite logique d’opérations en une succession d’instructions exécutables par l’ordinateur et définissant les opérations à réaliser dans le but d’atteindre un résultat précis.

A cet effet, notre projet se divise en deux parties :
- La première qui comprend l’écriture du programme et qu’on peut schématiser comme suit :

Avant de pouvoir extraire le motif et ses contextes, les contenus des dumps doivent être obligatoirement encodés en UTF-8. Comme ce n’est pas forcément le cas tout le temps, une conversion en UTF-8 s’impose et que nous avons pu résumer ainsi :

Après ces traitements d’encodage et de conversion, nous sommes passées à l’étape d’extraction du motif ainsi que ses contextes en fonction de la langue à l’aide de la commande egrep et du programme minigrep multilingue, sans oublier le comptage des occurrences du motif dans les fichiers. Avant de passer à la seconde partie, nous avons fini l’écriture du script par l’affichage de ces résultats dans le tableau html, mais aussi par la concaténations de tous les fichiers dumps pour chaque langue, ainsi que par leur nettoyage à l’aide d’expressions régulières.

- La seconde partie consiste en l’analyse textométrique à partir des fichiers dumps concaténés. Elle contient la génération de nuages des mots et l’exploration textométrique des cooccurrents. Les résultats obtenus avec iTrameur sont accessibles ici, et l'analyse textométrique ainsi que les nuages de mots de ces résultats sont affichés ici.
Pour parvenir à l’obtention des résultats escomptés, nous avons tenu un blog tout au long du semestre pour y partager, étape par étape, l’écriture du script ainsi que les obstacles rencontrés et les solutions trouvées au cours de la réalisation du projet.

Bonne navigation !