Projet Plurital
Individu|Individual|个人|个体|家伙








Découvrez notre projet !

Durant ce premier semestre nous avons voulu traiter un corpus multilingue autour d'un motif ayant une problématique linguistique. Nous avons choisi le terme "individu" puisque, comme nous l'avons présenté sur notre page d'accueil, ce terme présente une tension. En effet, il oscille entre spécificité et généralité. En outre, il présente une non équivalence linguistique : afin de le traduire en chinois nous devons choisir entre trois termes différents, aucun des trois ne le traduit intégralement. Nous avons donc choisi de chercher cinquante URLs de presse qui contenaient le motif "individu" en trois langues différentes. Ensuite nous devions mettre en œuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu’à leurs présentations. C'est à dire chercher le motif dans la page, l'extraire avec son contexte, présenter nos résultats dans un tableau généré automatiquement.

Pour cela nous avons programmé en bash sous unix. Aussi, le projet s'organise en deux temps: tout d'abord écrire notre script afin de traiter nos fichiers d'urls comme nous l'entendons, et ensuite analyser les résultats obtenus. Le premier temps commence avec la compréhension du cheminement et des transformations que devront suivre nos données :
schema.png
Puis, avant même de commencer à écrire le script bash, nous avons dû établir la logique de nos actions en langue naturelle. Cette dernière fut fortement contrainte par la consigne exigeant que toutes les pages soient en UTF-8. Ainsi, nous voulions que notre script se déroule comme ceci:
logique.png

Après avoir posé notre réflexion nous avons commencé la rédaction du script. Si vous souhaitez suivre la construction du programme, nous avons tenu un blog de travail durant tout ce semestre. Vous pouvez également télécharger nos scripts terminés depuis cette page:
carre.png triangle.png rond.png

La dernière partie du site présente les tableaux que notre script a automatiquement générés afin de présenter ses résultats.

Le second temps du projet fut un temps d'analyse: il se divise lui même en deux phases, celle des nuages de mots et celle de l'analyse via Le Trameur. Cela nous permet d'observer les "co-occurrents", c'est à dire voir en contexte, quels sont les mots qui sont attirés ou du moins quels sont les mots qu’attirent nos motifs. Vous trouverez les résultats sur ce site: ici et ici.


Nous vous souhaitons une bonne lecture!