Aller au contenu principal
IFRAME:
//www.ultimedia.com/deliver/generic/iframe/mdtk/01062391/zone/1/showtit
le/1/src/vqls8s/autoplay/yes
(BUTTON) menu
Accueil
Formulaire de recherche
_______________ (BUTTON)
(Rechercher) Rechercher
* Facebook
* Twitter
* Panier
* S'identifier
Magazine
* Actualités
* Agenda
* Archives
mensuel 543
Abonnement
* Abonnement au site
* Abonnement papier
La Boutique
* Produits dérivés
* Anciens numéros
Évènements
* Prix La Recherche
* Concours génération développement durable
* Abonnement
* Contact
* FAQ
* Espace presse
* CGV
* Mentions Legales
Formulaire de recherche
_______________ (BUTTON)
(Rechercher) Rechercher
* Panier
* S'identifier
* Actualités
* Le magazine
* Archives
* Abonnements
* Boutique
La traduction automatique passe à l’apprentissage profond
Technologie
(Partager l'article) Partager l'article
La traduction automatique passe à l’apprentissage profond
Le mardi 28 août 2018 Gratuit
Depuis quelques années, l'apprentissage profond a révolutionné le
domaine de la traduction automatique. Les résultats montrent un immense
progrès par rapport aux techniques utilisées auparavant, mais on est
encore loin d'une traduction idéale, surtout pour les langues moins
usitées ou qui nécessitent une analyse syntaxique poussée.
Depuis ses débuts, la traduction automatique a subi de multiples
transformations. La première approche mise en œuvre, des années 1950
jusqu'aux années 1990, était fondée sur des règles, puis
progressivement, les approches statistiques ont pris le dessus. L’idée
principale des approches à base de règles consiste à utiliser des
dictionnaires bilingues ainsi qu'une analyse plus ou moins fine de la
structure des langues visées, au moyen de règles définies manuellement.
Les limites de ces systèmes sont apparues rapidement : le sens des mots
est trop ambigu, il dépend trop du contexte pour que l’on puisse tout
formaliser sous forme de règles. Les linguistes sont dès lors
confrontés à deux problèmes connexes : d’une part, l’impossibilité de
définir assez de règles pour pouvoir déterminer le sens de tous les
mots en contexte (il faut avoir en tête qu’un dictionnaire courant
contient environ 50 000 mots, et que chaque mot peut avoir plusieurs
sens), d’autre part, les règles définies interagissent les unes avec
les autres, ce qui, en pratique, rend les systèmes ingérables dès
qu’ils atteignent une certaine ampleur.
A la fin des années 1980, l’apparition de grands corpus bilingues
change la donne : ces corpus ne pourraient-ils pas servir de base de
connaissances géante, pour déterminer les traductions futures à partir
de traductions existantes ? On commence en effet à disposer à partir de
la fin de cette époque de grands corpus parallèles sous forme
électronique, c’est-à-dire de textes bilingues, où le texte en langue
source est « aligné » avec le texte en langue cible au niveau des
phrases, et parfois au niveau des mots. Un des corpus le plus utilisé,
dans les années 1980, est le Hansard, qui contient les transcriptions
officielles des débats parlementaires canadiens. Il s’agit donc d’un
corpus bilingue français-anglais et la nature des documents fait que la
traduction doit être extrêmement précise et fidèle. Les textes peuvent
donc être alignés au niveau du document, mais aussi de la phrase voire
à l'intérieur de la phrase.
Ensuite il ne s’agit bien évidemment pas de retrouver telles quelles
des phrases à traduire dans les corpus passés, mais des fragments de
traduction, au niveau des mots ou de groupes de mots, puis d’assembler
ces fragments de traductions pour former des phrases correctes dans la
langue cible. L’idée, tout d’abord testée à titre exploratoire,
s’impose rapidement devant la qualité inespérée des traductions ainsi
obtenues. La réalité du corpus fait foi. Autrement dit, l’observation
de grandes masses de données permet de déterminer assez finement le
sens en tenant compte du contexte.
Ainsi, le niveau de stabilité des traductions observées pour un mot
donné permet de déterminer son degré d’ambiguïté. Si un mot est presque
toujours traduit par le même mot dans la langue cible (comme
« crystallography » en anglais face à « cristallographie »), alors il
est peu ambigu, c’est-à-dire qu’il a un seul sens, stable et précis,
tandis qu’à l’opposé une grande diversité de traductions révèlera un
mot polysémique, dont le sens dépend davantage du contexte (comme
« avocat » qui peut être rendu par « avocado », « lawyer »,
« attorney », « consel », etc.). Les systèmes automatiques et, plus
particulièrement statistiques, sont très efficaces pour déterminer les
bons indices permettant de trouver la bonne traduction (il peut s’agir
de simples cooccurrences : si les mots « table » « mange » ou
« salade » sont présents dans le contexte, alors « avocado » a des
chances d’être une bonne traduction ; à l’inverse si c’est « juge » ou
« tribunal » que l’on trouve en contexte, la traduction par « lawyer »
sera plus indiquée. Cet exemple est très simple, mais il illustre bien
la puissance de l’ordinateur qui pourra enregistrer de manière
automatique ces différents contextes à très large échelle, ce qui est
au contraire extrêmement fastidieux pour un humain. L’approche sera
constamment améliorée, en particulier pour aller au-delà des mots et
procéder à la traduction directe de groupes de mots, plus ou moins
longs, ce qui améliore les traductions obtenues et permet notamment
d’éviter l’écueil du mot à mot.
L'intelligence artificielle change la donne
La traduction statistique souffre toutefois de problèmes connus et
difficiles à surmonter. En particulier, une des faiblesses majeures de
ces systèmes est de devoir composer la traduction d’une phrase par
assemblage de fragments de textes trouvés dans la langue cible. Or ces
fragments peuvent être hétéroclites et ne sont pas toujours compatibles
entre eux : il y a dès lors un fort risque d’obtenir des phrases
bancales, voire incohérentes. Si les systèmes se sont considérablement
améliorés depuis les années 1990, les phrases restent toutefois souvent
mal traduites, surtout si elles sont longues.
Par ailleurs, on observe que le Web est un objet de plus en plus
multilingue. Ainsi, la part des utilisateurs dont la langue maternelle
est l’anglais serait passée aux alentours de 25% récemment (cf.
Internet World Stats, Miniwatts Marketing Group), et cette proportion
est en constante diminution depuis le début du Web. Les besoins en
matière de traduction automatique sont donc avérés et le marché
continue de pousser pour une traduction de meilleure qualité.
Alors que les systèmes de traduction automatique statistique
s’amélioraient régulièrement, un changement majeur est survenu ces
dernières années. Il s’agit, comme on peut s’en douter, de l’arrivée de
l’apprentissage profond (c’est-à-dire des réseaux de neurones
artificiels). L’approche neuronale a un énorme avantage sur l’approche
statistique classique : elle permet de considérer la phrase en entier,
d’un coup, ce qui évite la phase hasardeuse d’assemblage des fragments
épars de traduction.
La nouveauté principale est de procéder par une analyse contextuelle
globale, c’est-à-dire qu’à tous les niveaux d’analyse, le sens des mots
sera représenté par leur entourage. Puis, les mots sont regroupés en
ensembles plus larges sémantiquement homogènes baptisés plongements de
mots (ou « word embeddings » en anglais). L’avantage de cette technique
est d’améliorer notablement la notion de contexte en prenant en compte
non seulement le contexte du mot considéré, mais aussi celui des mots
les plus proches sémantiquement, ce qui permet de mieux prendre en
compte les mots rares par exemple. L’analyse de la phrase est
hiérarchique : pour chaque niveau (mot, groupes de mots, puis phrase
complète) une représentation riche, contextuelle et dynamique est à
l’œuvre (riche car un très grand nombre d’informations de natures très
diverses est pris en compte ; dynamique et contextuelle car le contexte
à prendre en compte change dynamiquement pour chaque unité linguistique
à analyser). Un aspect intéressant de cette approche est que le
système, en découvrant progressivement des régularités de façon
incrémentale, identifie des groupes de mots linguistiquement liés.
Autrement dit, sans que la syntaxe – c’est-à-dire les relations entre
les mots – soit directement et explicitement formalisée, le système la
reconstitue de lui-même en partie.
Au-delà des performances, certaines caractéristiques de cette approche
entrent en résonance avec les sciences cognitives, ce qui contribue
aussi à sa popularité. Les mots, tout comme les syntagmes (*) ou les
phrases, peuvent être directement comparés sur une échelle relative.
Autrement dit, non seulement obtient-on des synonymes ou des antonymes,
mais on trouve aussi par cette méthode des mots plus ou moins proches
sémantiquement, ou qui constituent des traductions plus ou moins
pertinentes selon le contexte, ce qui semble bien correspondre à la
réalité de la langue. Le fait que des éléments de structure – de
syntaxe – apparaissent dans la traduction sans que celle-ci soit
encodée explicitement est aussi une caractéristique importante de ces
modèles.
On est ici très loin, voire à l’opposé des approches manuelles en vogue
au début de la traduction automatique. L’approche par apprentissage
profond peut dès lors susciter des discussions sur ses rapports avec
l’apprentissage humain. Mais l’analogie a aussi ses limites. Ainsi, les
systèmes ont encore besoin d’infiniment plus de données qu’un humain
pour inférer des connaissances, ce qui pose problème pour les langues
moins bien représentées sur Internet par exemple. Les systèmes
d’apprentissage sont aussi complètement déconnectés de la réalité et
n’ont aucune connaissance de sens commun par exemple.
Les limites de l'apprentissage profond
L’approche neuronale s’est généralisée en quelques mois à l’ensemble
des grands acteurs de la traduction automatique. Le mouvement a été
particulièrement frappant à l’automne 2016, quand Google a proclamé
avoir remplacé son système de traduction automatique fondé sur
l'approche statistique par un modèle par apprentissage profond, avec
une amélioration immédiate et très visible des résultats. A sa suite,
tous les grands acteurs du domaine ont annoncé leur passage à
l’apprentissage profond. Le contraste a été assez saisissant avec ce
qui s’était passé 25 ans plus tôt, quand l’approche statistique avait
mis plusieurs années à s’imposer. Dans les années 1990, certains
acteurs du domaine opposaient statistiques et sémantique. En 2016, nul
débat de ce type : l’amélioration du système de Google a été nette (au
moins pour certains couples de langues comme français-anglais) et la
popularité de l’apprentissage profond dans d’autres domaines (du jeu de
go à la vision artificielle) a fait le reste.
Tous les problèmes de la traduction automatique ne sont pas résolus
pour autant. Certains sont des problèmes classiques de la traduction
automatique, comme celui du traitement des mots « inconnus »
(c’est-à-dire inconnus du système). La gestion des mots inconnus est un
problème banal, mais toujours mal résolu et pour lequel chaque équipe
met au point des « remèdes » plus ou moins efficaces. (translittération
ou copie directe si le mot a des chances d’être un nom propre, analyse
de la structure du mot si elle est possible ; en pratique le mot est
souvent juste copié ou « omis » dans la langue cible, faute de
traitement adéquat).
Plus fondamentalement, comme pour les approches statistiques,
l’apprentissage profond nécessite toujours énormément de données (des
corpus parallèles de plusieurs millions de mots). Il est donc douteux
que l'on dispose jamais (ou en tout cas pas dans un futur proche) de
corpus bilingue suffisant pour développer des systèmes efficaces,
au-delà d’un cercle restreint d’une dizaine ou d’une quinzaine de
langues bien représentées sur Internet. C'est manifeste sur la qualité
des traductions produites : celles-ci sont relativement bonnes entre le
français et l’anglais, mais beaucoup moins pour d’autres couples de
langues (ainsi les traductions de l’arabe ou du chinois, bien qu’ayant
donné lieu à de très nombreuses recherches, restent encore souvent très
défaillantes).
Au-delà de la masse de données disponibles, différents facteurs
expliquent la grande variation de la qualité des traductions obtenues.
La traduction vers l’anglais est plus aisée que vers d’autres langues
car l’anglais isole les mots et a une morphologie particulièrement
pauvre. Autrement dit, les mots varient peu en anglais : le genre, le
nombre voire le temps verbal est à peine marqué, alors que d’autres
langues tel l’allemand ou le russe agrègent beaucoup d’informations sur
le mot. Du coup, pour traduire en allemand ou en russe, il faut d’abord
procéder à une analyse syntaxique pour déterminer la fonction du mot
dans la phrase, puis son cas et sa forme précise, telle qu’on la trouve
dans les textes. Ce type d’analyse est complexe, et les systèmes
passent de surcroît fréquemment par l’anglais pour traduire (même quand
la source ou la cible n’est pas l’anglais), rajoutant autant d’erreurs
potentielles. Toutefois, même si les grands acteurs en sont encore là,
c’est qu’ils ont observés qu’une double traduction passant par
l’anglais donne malgré tout de meilleurs résultats qu’une traduction
directe entre les deux langues concernées.
Enfin, la structure et la proximité linguistique des langues a aussi
une influence majeure. La traduction entre langues indo-européennes,
même parfois avec relativement peu de données disponibles, fonctionne
mieux que la traduction vers le chinois ou l’arabe, car ces langues ont
une structure et des principes linguistiques très différents de ceux de
l’anglais. Une question intéressante est alors de savoir jusqu’où les
approches à base d’apprentissage sur de grands corpus parallèles
peuvent s’améliorer ou, autrement dit, s’il y a des limites
fondamentales inhérentes à l’approche qui exigeraient un retour de la
syntaxe ou des linguistes dans l’affaire.
Thierry Poibeau et Marianne Reboul
Thierry Poibeau est directeur de recherche au CNRS. Il mène des
recherches en traitement automatique des langues à l’Ecole normale
supérieure à Paris, au sein du laboratoire Lattice (langues, textes,
traitements informatiques, cognition, UMR 8094).
Marianne Reboul est maître de conférences en Humanités Numériques à
l'ENS de Lyon, menant ses recherches au sein du laboratoire IHRIM (UMR
5317).
(*) Un syntagme est un groupe de mots formant une unité au sein de la
phrase (on parle aussi de groupe nominal, de groupe verbal, etc.).
Photo : DR
Évaluer la traduction automatique
L’évaluation des systèmes de traduction automatique (par exemple la
mesure de la performance relative de différents systèmes, ou de leur
progrès au cours du temps) est un problème difficile mais crucial.
C’est un problème difficile dans la mesure où il n’y a pas de critère
formel clair permettant de définir ce que serait une bonne traduction.
Du fait de cette difficulté, la solution la plus courante consiste
simplement à comparer une traduction automatique avec des traductions
manuelles de référence au moyen de séquences contiguës de n mots
appelées « n-grammes » (en pratique, on utilise souvent des séquences
de 4 mots). Plus il y a de séquences de 4 mots en commun entre la
traduction automatique et la/les traduction/s de référence, plus la
traduction sera jugée de bonne qualité (cette mesure est appelée BLEU,
pour Bilingual Evaluation Understudy). Ce type d’évaluation peut
surprendre dans la mesure où elle semble très simpliste, et qu’elle
n’intègre aucun élément de nature syntaxique ou sémantique (elle ne
permet pas de s’assurer que les phrases sont correctes ni qu’elles
rendent compte de la sémantique du texte original). Il s’agit toutefois
d’une technique d’évaluation rapide, efficace et simple à mettre en
œuvre ; il a surtout été montré qu’elle est relativement bien corrélée
aux jugements humains : les scores obtenus ne sont pas significatifs en
soi, mais ils permettent de comparer relativement finement des systèmes
entre eux, ou l’évolution de la qualité d’un système au cours du temps.
Réseau de neurones et réseaux d'influence
La traduction automatique est un domaine applicatif, mais peut aussi
donner lieu à des recherches très différentes, pour analyser des œuvres
littéraires par exemple. Ainsi, en analysant trois traductions de
l'Odyssée d'Homère, nous avons pu mettre en évidence comment les
traductions se distinguent dans la manière de traduire selon les
époques. Chaque mot des traductions est représenté par un vecteur de
mots, c'est-à-dire une représentation sémantique des mots sous forme de
vecteurs en n dimensions. Ces vecteurs de mots, construits à l'aide des
techniques des réseaux de neurones sont notamment utiles pour évaluer
la proximité d'emploi de mots entre les textes. Sur cette
représentation, nous avons représenté les vecteurs de mots de trois
traductions d'Homère (Anne Dacier, seule traductrice d'Homère, au
XVII^e siècle ; Leconte de Lisle au XIX^e ; Victor Bérard au XX^e). On
constate que la traduction de Dacier est sémantiquement plus éloignée
que celle des deux traductions postérieures. Lorsqu'on travaille sur
des textes fréquemment traduits, on peut donc étudier les traducteurs
qui s'inspirent les uns des autres en fonction de la manière dont ils
traduisent.
Références :
Homère, L’Odyssée traduite en francois, avec des remarques, trad. Anne
Dacier, Paris, Rigaud, 1716, 3 vol.
Homère, L'Odyssée, Hymnes, Épigrammes, Batrakhomyomakhie, trad.
Charles-Marie Leconte de Lisle, Paris, Lemerre, 1868
Homère, L’Odyssée : chants I à VII, t. 1, trad. Victor Bérard, Paris,
Les Belles Lettres, 1924, 3 vol.
Image : © Thierry Poibeau et Marianne Reboul
L'image du mois
La sonde InSight sur Mars
Chroniques
À vos crayons !
Carrés magiques, énigmes maths, sudomaths... Chaque mois, venez vous
confronter à nos jeux !
> C'est parti !
© Ecole polytechnique / J. Barande
Suivez-nous sur Twitter
Tweets de @maglarecherche
En kiosque
La Recherche mensuel n° 543 daté janvier 2019, Les 10 découvertes de
l'année
Découvrez ce numéro
A écouter
RFI - Dans Autour de la question du 07/11/2018, retrouvez Philippe
Pajot, rédacteur en chef de La Recherche.
IFRAME:
https://www.franceculture.fr/player/export-reecouter?content=01fc9830-5
54e-4bea-83f6-54161332bca5
France Culture - Dans La méthode scientifique du 26/10/2018, retrouvez
Sylvain Guilbaud, journaliste à La Recherche.
RFI - Dans Autour de la question du 03/10/2018, retrouvez Philippe
Pajot, rédacteur en chef de La Recherche.
Newsletter
Inscrivez-vous à notre newsletter
Mon adresse mail *
____________________________________________________________
(S'inscrire) S'inscrire
L'application mobile
[mobile.png]
[mobile_appstore.png]
[mobile_googleplay.png]
En kiosque
La Recherche mensuel n° 543 daté janvier 2019, Les 10 découvertes de
l'année
Découvrez ce numéro
[mobile.png]
[mobile_appstore.png]
[mobile_googleplay.png]
En poursuivant votre navigation sur les sites du groupe Sophia
Publications, vous acceptez l'utilisation des cookies permettant de
vous proposer des services et contenus personnalisés.
En savoir plus (BUTTON) OK
(×) ×
Partager
* Facebook logo
* LinkedIn logo
* Twitter logo
(Fermer) Fermer
Voir