Projet Plurital
Religion|Religion|宗教






Découvrez notre projet !

Durant ce premier semestre, il nous a été demander de traiter un corpus multilingue autour d'un motif ayant une problématique linguistique. Nous avons choisi le terme "religion" puisque ce terme diffère au niveau de sa valeur selon les différentes langues . En effet, il oscille entre spécificité et généralité. De plus , il présente une non-équivalence linguistique en chinois. Ainsi , pour le traduire nous devions choisir entre plusieurs termes différents. Pour répondre à cette problématique, il nous fallait des URLS, nous avons donc choisi de chercher entre 40 et 50 URLs de presses qui contenaient le motif "religion" dans trois langues différentes. Ensuite nous devions mettre en œuvre une chaîne de traitement textuel(= un script) afin de récupérer les données. Nous devions chercher le motif dans la page, l'extraire avec son contexte et présenter nos résultats dans un tableau généré automatiquement.
schema.png
Pour cela nous avons programmé en bash sous unix. Ainsi, le projet s'organise de la sorte: tout d'abord écrire notre script afin de traiter nos fichiers d'urls, ensuite analyser les résultats obtenus (à l'aide du trameur) puis les présenter entre autres sous forme de nuages de mot. Pour écrire, ce script, il fallait dans un premier temps comprendre le cheminement des transformations que devront suivre nos données. De fait, nous voulions que notre script se déroule comme ceci : (NB : toutes les pages devait être en UTF-8) schema.png
Si vous souhaitez suivre et comprendre la construction du programme, nous avons tenu un blog de travail durant tout ce semestre. Vous pouvez également télécharger le script terminé depuis cette page : => script final
Pour finir, La dernière partie du site présente les tableaux que notre script a automatiquement généré afin de présenter ses résultats.

Nous vous souhaitons une bonne lecture!