À PROPOS

Présentation

Nous somme trois étudiants en Master 1 Traitement Automatique des Langues et dans le cadre du cours Programmation et Projet Encadré, nous avons été invités à entamer un projet multilingue intitulé “La vie multilingue des mots sur le web”. Ce projet comprend la création d'un corpus multilingue de sites web à partir d’un mot de notre choix et à analyser les différences utilisations de ce mot entre les langues associées à ce corpus. Pour notre projet, nous avons choisi de travailler sur l’utilisation et la vie du mot Frontières à travers la toile. Après un long débat et une longue réflexion, on a opté pour un mot dans le sens a une portée à la fois culturelle, géologique et politique car nous avons découvert que ce mot ne résonne pas de la même façon d'un oreille à l'autre ou même d'une culture à l'autre. Bien évidemment, nous avons considéré d'autres mots pour ce projet comme le mot (clé), le mot (xénophobie) et le mot (architecture) mais finalement nous avons trouvé que le mot (Frontières) est le mot le plus adapté pour notre projet car ce mot est devenu très médiatisé et occupe l'opinion publique. Les langues sélectionnées pour donner vie à notre corpus sont l’anglais, le chinois, l’arabe, l'italien et le français. Nous vous souhaitons la bienvenue sur notre blog et comme a dit Bette Davis " Fasten your seatbelts, its going to be a bumpy night " :D.

مقدمه

نحن عباره عن ثلاثة طلاب في السنه الاولى ماجستير المعالجه الاليه للغه, وفي اطار محاضرة البرمجه, طلب منا بأن نقوم بعمل مشروع متعدد اللغات تحت عنوان الحياه المتعدده اللغات للكلمه على الشبكه العنكبوتيه يتضمن هذا المشروع انشاء قاعده من البيانات المقتبسه من مجموع من المواقع الالكترونيه وعلينا أن نقوم باختيار كلمه وتحليل استخداماتها المختلفه بين اللغات التي سوف نقوم باستخدامها في هذا المشروع بالنسبه لمشروعنا لقد اخترنا العمل على تحليل كلمه الحدود في الشبكه العنكبوتيه واستخداماتها بين اللغات المختلفه, بعد نقاش طويل وتفكير عميق قمنا باختيار كلمه الحدود لمدلولاتها الثقافيه والجغرافيه والسياسيه. فقد اكتشفنا بأن لحن هذه الكلمه ومعناها يختلف من اذن لاخرى أو حتى من ثقافة لأخرى. بالطبع في مرحله التفكير وقع الاختيار على كلمات اخرى مثل مفتاح, عماره او الاكزانوفوبيا بمعنى الخوف من الاخر, ولكننا وجدنا بأن كلمه الحدود هي الاقرب والامثل لمشروعنا والسبب هو أن هذه الكلمه ومعناها قد شاع واستخدم بكثرة في الاذاعات والفضائيات وشغل الرأي العام مؤخرا اللغات التي سنقوم باستخدامها في هذا المشروع هي الانجليزيه والفرنسيه والعربيه والايطاليه والصينيه. لذلك اهلا وسهلا بكم, نرجو أن تستمتعوا بهذا المشروع ومراحل اعداده المختلفه وكما قالت بيت دافيس * اربطو احزمتكم فهذه الليله ستكون صاخبه*. وشكرا

Presentazione

Siamo tre studenti iscritti al primo anno di Master TAL Traitement Automatique des Langues, traducibile in italiano come Elaborazione Linguistica, una disciplina che utilizza l'informatica per il trattamento elettronico delle lingue. Grazie al nostro corso Programmation et Projet Encadré (un corso di programmazione che comprende un progetto su un argomento preciso) abbiamo avuto la possibilità di lavorare ad un progetto che si basa su come una parola "vive" nel web. Più precisamente, si basa su come la "vita" di una certa parola cambia a seconda della lingua scelta per la sua ricerca nel mondo del web. Per sviluppare questo progetto, inizieremo con lo scegliere una parola di cui poi andremo ad analizzare i diversi utilizzi nelle varie lingue da noi scelte e di cui siamo specialisti (può essere una lingua che abbiamo studiato o la nostra lingua natale). L'analisi avverrà attraverso un corpus di siti web suddivisi per lingua. Il termine che abbiamo scelto per il nostro lavoro è "Frontiere". Dopo una lunga riflessione, abbiamo infine optato per questa parola, poiché può essere analizzata da più punti di vista: politico, geologico, culturale. Inoltre, abbiamo scoperto che questo vocabolo non viene percepito allo stesso modo tra le varie culture da noi prese in considerazione, difatti spesso presenta sfumature diverse. Prima di ricadere su questa scelta, avevamo preso in considerazione anche altre parole, quali "Xenofobia" e "Architettura". Tuttavia, ci siamo infine decisi per il termine "Frontier", una parola oggigiorno fortemente presente in ambito sia mediatico che politico. Le lingue da noi scelte per creare il nostro corpus di siti web sono inglese, cinese, arabo, italiano e francese. Vi diamo quindi un caldo benvenuto sul nostro blog!! Come disse Bette Davis: "Fasten your seatbelts, it's going to be a bumpy night" :D

Introduction

We are three students enrolled in the first year of the Master Degree Linguistic Elaboration, a subject which uses computer science for the electronic processing of languages. As a result of our course Programmation et Projet Encadré (a software design course which includes an assignment on a specific topic), we had the opportunity to work on a project which aims to recognizes how a word “lives” on the web, according to the language chosen for its online search. To develop this project, we would choose a word which later would be analyzed in its different uses of the various languages for which we are specialist (this can be a language that we learned and studied or our native language) and this would be accomplished trough a body of web sites divided by languages. The term we have chosen for our project is “Borders”. After long consideration, we selected the above word as it can be analyzed from different perspectives, for instance, the political and geological but also the cultural. In fact, we discovered that the selected word is not perceived in the same way among the different cultures analyzed but it has often shades. Before falling on this choice, we considered other words, such as “Architecture” or even “Xenophobia”. However, we finally agreed on the term “Borders”, in our opinion, a word nowadays strongly present in the media and political sphere. The languages we have chosen to create our website body are English, Chinese, Arabic, Italian and French. We warmly welcome you on our blog and as Bette Davis once said: “Fasten your seatbelts; it’s going to be a bumping night” :D

简介

我们是来自于自然语言处理专业研究生一年级的三名学生,在programmation et projet encadré这门课上, 我们将共同完成一项名为“词语在互联网上的多语言生命”的项目。 这个项目旨在通过我们在课上学习到的语言学及计算机知识,研究词语以不同的语言在不同语言环境下在互联网上的不同用法及其与之相连的社会与语言学价值。 我们选择“边境”作为我们项目的主题及关键词,研究它在不同语言的互联网环境下的用法。 经过长时间的讨论,我们最终选择了这个同时兼顾文化性,地缘性及政治性的词语,不仅如此,我们还发现这个词语是以不同的形式存在于不同语言及文化环境下被人们口耳相传。当然,我们也考虑过其他一些词语比如“关键”,“仇外”和“建筑”,最终我们觉得“边境”这个词最符合我们的期待。 我们选择了法语,英语,中文,意大利语和阿拉伯语五种语言作为我们项目的研究语言。 欢迎您来到我们的博客,就像Bette Davis说的那样: “Fasten your seatbelts; it’s going to be a bumping night”

HISTOIRE

P Le traitement automatique du langage naturel ou de la langue naturelle (abr. TALN) ou des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artificielle, qui concerne l'application de programmes et techniques informatiques à tous les aspects du langage humain1. Ainsi, le TAL ou TALN est parfois nommé ingénierie linguistique.

P L'histoire du TAL commence dans les années 1950, bien que l'on puisse trouver des travaux antérieurs. En 1950, Alan Turing éditait un article célèbre sous le titre « Computing machinery and intelligence » qui propose ce qu'on appelle à présent le test de Turing comme critère d'intelligence. Ce critère dépend de la capacité d'un programme informatique de personnifier un humain dans une conversation écrite en temps réel, de façon suffisamment convaincante que l'interlocuteur humain ne peut distinguer sûrement — sur la base du seul contenu de la conversation — s'il interagit avec un programme ou avec un autre vrai humain.

P L'expérience de Georgetown en 1954 comportait la traduction complètement automatique de plus de soixante phrases russes en anglais. Les auteurs prétendaient que dans un délai de trois ou cinq ans, la traduction automatique ne serait plus un problème2. Pendant les années 1960, SHRDLU, un système de langage naturel appelé « blocks world » dont la base était des vocabulaires relativement restreints, fonctionnait extrêmement bien, invitant les chercheurs à l'optimisme. Cependant, le progrès réel était beaucoup plus lent, et après le rapport ALPAC (en) de 1966, qui constatait qu'en dix ans de recherches les buts n'avaient pas été atteints, l'ambition s'est considérablement réduite.

ELIZA était une simulation à la manière de la psychothérapie rogérienne, écrite par Joseph Weizenbaum entre 1964 à 1966. N'employant presque aucune information sur la pensée ou l'émotion humaine, ELIZA parvenait parfois à offrir un semblant stupéfiant d'interaction humaine. Quand le « patient » dépassait la base de connaissances (par ailleurs très petite), ELIZA pouvait fournir une réponse générique, par exemple, en réponse à « J'ai mal à la tête » dire « Comment cela se manifeste-t-il ? ». Pendant les années 1970 beaucoup de programmeurs ont commencé à écrire des « ontologies conceptuelles », dont le but était de structurer l'information en données compréhensibles par l'ordinateur. C'est le cas de MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politics (Carbonell, 1979), Plot Units (Lehnert 1981). Pendant ce temps, beaucoup de chatterbots à la manière d'ELIZA ont été écrits comme PARADE, Racter, et Jabberwacky. Dès les années 1980, à mesure que la puissance informatique augmentait et devenait moins chère, les modèles statistiques pour la traduction automatique ont reçu de plus en plus d'intérêt.

Référence WIKIPEDIA

Team

team member

About Me

Actuellement en master 1 traitement automatique des langues à l'INALCO, je possède d'ailleurs un master en traduction juridique et financière de l'université Sorbonne Nouvelle. Je parle plusieurs langues dont l'arabe, l'anglais, et un peu d'espagnole :D

YOUSEF ABUSALHA
team member

About Me

Bonjour! Je m'appelle Giulia. J'ai une licence en chinois à l'Université Ca' Foscari de Venise et actuellement je suis en M1 Traitement Automatique de Langues à l'Inalco de Paris. Je m'interesse à la programmation et aux langues étrangères.

GIULIA RUSPANTINI
team member

About Me

Je suis en M1 en TAL à paris 3, auparavant j'ai fait une licence de français à l'Université du Heilongjiang en Chine et puis un an d'échange à Paris 10 en LEA (chinois); je m'intéresse beaucoup au TAL et à l'apprentissage automatique (machine Learning).

XI RONG