Qui sommes-nous ?

L'apprentissage du traitement automatique des langues

Nous sommes Abdenour Barèche, Lucas Elias Fonseca et Neda Lestarevic, étudiants du master TAL, accredité par les universités de la Sorbonne-Nouvelle, l'INALCO et l'université Paris X. Nous apprenons à manipuler des données linguistiques à travers des outils automatiques pour les analyser avec plus de précision et objectivité. Notre objectif avec ce travail est de montrer notre parcours et nos conclusions lors d'une analyse multilingue du mot "immigration" dans le cadre du cours Programmation et Projet Encadré, organisé par les professeurs Serge Fleury et Jean-Michel Daube.

Le projet Immigration

Nous avons choisi d'analyser le mot immigration dans la presse mondiale. Pour ce faire nous avons choisi d'analyser ce phéomène en français, anglais, arabe, portugais et serbe. Nous avons choisi ce mot à cause de sa forte présence dans l'actualité : les réfugiés de guerre venus surtout de la Syrie et les présidentielles américaines ont poussé ce thème à une centralité que l'on ne pourrait pas ignorer. Étant nous trois des étudiants étrangers, nous nous sommes sentis directement affectés par la repercussion du thème, ce qui nous a mené à cette recherche dont les résultats nous vous présentons ici dans ce site.

Les étapes du projet

La première étape après la définition du thème a été de composer un corpus. Pour ce faire nous avons selectionné une liste d'environ 59 URLs pour chaque langue. Nous avons priorisé des articles de presse qui traitaient directement de ce sujet.

Après cela nous avons commencé à composer un script Bash pour faire l'extraction du texte des URLs et les mettre dans un corpus. Pour tester les URLs, on a d'abord aspiré les pages avec la commande lynx vers un fichier html, d'où nous avons pu trouver leurs encodages, ce qui nous a permis de les convertir en UTF-8 dans le cas où elles n'étaient pas encodées selon cette convention. Après tous les traitements, on a composé deux corpus pour chaque langue : un pour le texte brut de la page, les DUMP, et un pour les contextes spécifiques où notre motif, immigration, apparaîssait. Pour voir les résultats cliquez ici.

Cela nous amène à la dernière partie : l'analyse de ces corpus à travers plusieurs logiciels d'anaalyse textométrique. On a utilisé le logiciel mis à disposition par nos professeurs, Le Trameur, sa version en ligne, le iTrameur et AntConc. On a aussi composé des nuages de mots avec Wordle et des nuages arborés avec TreeCloud. Ces outils nous ont permis d'analyser et exemplifier avec plus de profondeur et précisions les résultats obtenus lors de notre analyse.