Traduction automatique : les réseaux de neurones à l’essai

Eduquer en même temps plusieurs programmes sur différents thèmes, leur faire passer des examens, puis garder les meilleurs pour l’étape suivante... cette méthode dite « douce » est au coeur d’une expérience originale.

Par David Larousserie Publié le 27 novembre 2017 à 16h18 - Mis à jour le 27 novembre 2017 à 16h18

Temps de Lecture 2 min.

Article réservé aux abonnés

« Tout est en route, nous avons une petite classe avec de bons et de mauvais élèves sur lesquels nous faisons de la sélection », résumait Jean ­Senellart, directeur technique de Systran, le 6 octobre. C’était une dizaine de jours après le début d’une expérience originale menée dans son centre de recherche en traduction automatique.

Au lieu de faire ingurgiter plus de dix millions de phrases pendant des semaines à un algorithme de type réseau de neurones pour lui apprendre à traduire l’anglais vers le français, comme tout le monde le fait, y compris Systran depuis 2016, les chercheurs veulent tester une méthode plus douce. Il s’agit d’éduquer en même temps plusieurs programmes sur différents thèmes, leur faire passer des examens, puis garder les meilleurs pour l’étape suivante, identique à la précédente, mais avec des phrases de nature différente, et ainsi de suite.

Obtenir le meilleur modèle

Plus concrètement, au départ, cinq ­réseaux de neurones, aux 400 millions de paramètres chacun, tirés aléatoirement, participent à l’expérience. Pendant dix heures, ils « ingurgitent » trois millions de phrases de médecine ou d’informatique, de tourisme, d’actualités, de conférences TED ou de sous-titres de films (il y a une cinquantaine de thèmes), selon le choix fait par un humain. Puis l’« élève » subit une trentaine de tests constitués de 500 phrases à traduire, n’appartenant évidemment pas au corpus d’apprentissage. A chaque « époque » – comme ils baptisent la période apprentissage/test –, cinq ou six modèles sont gardés pour la phase suivante. Ils constituent une nouvelle génération qui subira le même sort que ses parents.

« L’un des problèmes est que si on spécialise tout de suite l’apprentissage, le réseau de neurones ­devient “bête” et peut bloquer sur des ­traductions simples »

Une sorte d’écran radar permet de surveiller la classe à chaque étape. Les élèves sont des ronds, avec un matricule à sept lettres et chiffres, sous lesquels leurs ­notes apparaissent pour les divers tests. En cliquant sur un rond, les professeurs savent quel corpus l’a nourri, par exemple un quart de dialogues, un quart de ­juridique, autant d’actualités que de ­médical… Des liens entre les ronds permettent de ­repérer leur ascendance. « L’un des problèmes est que si on spécialise tout de suite l’apprentissage, le réseau de neurones ­devient “bête” et peut bloquer sur des ­traductions simples », note Jean ­Senellart, qui indique aussi que « 350 phrases sur 13 millions peuvent changer du tout au tout un comportement ».