A propos du projet

Dans le cadre du Master 1 Traitement Automatique des Langues cohabilité par l'Inalco, l'Université Paris-Nanterre et la Sorbonne-Nouvelle, nous avons eu pour premier projet encadré d'effectuer un script permettant de récupérer le contenu de pages HTML et de s'en servir afin de faire l'analyse textométrique d'un mot en contexte en plusieurs langues.

Nous sommes deux étudiantes du master, l'une travaillant sur l'arabe et l'autre sur le français. Notre choix de mot à analyser s'est porté sur "banlieue". Notre intuition était que le mot en français détient une connotation négative forte, contrairement à son équivalent en arabe qui désigne simplement une position géographique. Nous avons cherché à voir si notre hypothèse de départ pouvait être validée à l'aide de l'analyse du mot en contexte en constituant un corpus de plusieurs articles de presse récupérés en ligne et en nous confrontant à des évaluations textométriques sur ce corpus.

Vous pourrez trouver notre script, les tableaux qu'il a générés ainsi que les différentes analyses réalisées avec Tagxedo, Wordle et iTrameur en navigant sur le site.

Bonne visite !