微软宣布机器翻译技术取得突破，中翻英可媲美人类

在 2018.03.15 由 Sarah Perez (@sarahintampa) 发布

阻止博通收购高通只是特朗普打压中国科技公司的开始

周三，微软的一组研究团队宣布，他们研发出了首个能够以媲美人类翻译准确度进行新闻报道中翻英的机器翻译系统。该公司表示，他们使用一个样本集（其中包含了来自多家在线新闻媒体的 2,000 条语句）反复测试了这套系统，并将结果跟人类译者的翻译进行了比较——他们甚至从外部聘请了双语顾问来进一步验证机器翻译的准确性。

那个样本集名为 newstest2017，它是在去年秋天的研究大会 WMT17 上刚刚发布的。

那么，研究人员如此快地实现了这个里程碑，这着实令人惊奇，尤其考虑到机器翻译是人们几十年来一直试图解决的问题。

微软指出，很多人甚至认为机器翻译媲美人类的目标将永远无法实现。

“在机器翻译方面达到与人类相同的水平是所有人的梦想。”负责微软语音、自然语言和机器翻译工作的技术专家黄学东在微软的一篇博客文章中说，“我们没有想到这么快就能实现。”

让一台机器以这样的尺度理解语言，这远比语音识别要复杂得多——后者近年来取得了不少进步。人工智能和语音识别领域取得的进步让语音助手在我们的智能手机和家庭当中找到了一席之地，它们可以帮助用户处理日常计算任务、控制智能家居设备，以及用于新闻和娱乐目的。

不过，要求机器翻译一个网页或一篇新闻报道，其结果往往还是词语难以理解地混在一起，至多能够让你对文章说了什么有一个大致理解，但却几乎不可能带来任何深刻认识。

要真正理解长篇幅文章的内容，你还是需要人类翻译的帮助。

但是，不同人类翻译可能会以稍有差异的方式来翻译同一语句，而且译文都可以说是正确的。

“机器翻译比纯粹的模式识别任务复杂得多。”微软亚洲研究院副院长兼自然语言处理研究组（即研发上述系统的团队）负责人周明说，“人们可能用不同的词语来表达完全相同的意思，但未必能准确判断哪一个更好。”

微软还指出，人工智能领域最近取得的突破为研究人员实现这一里程碑做出了贡献。

深度神经网络是一种训练人工智能系统的方法，它让研究人员得以生成把更广泛上下文关系考虑在内、较以往技术（即统计机器翻译）更加自然流畅的翻译结果。

微软的研究人员还在这套系统中添加了他们自己的训练方法，以提高翻译的准确性——他们把这比作人类反复检查自己的工作成果，以确保准确性。

研究人员表示，他们使用的方法包括：用于事实检查翻译的“ 对偶学习 ”（dual learning)；用于重复翻译和改进的“ 推敲网络 ”（deliberation networks）；用于迭代促进英翻中和中翻英系统的新技术“ 联合训练 ”（joint training）；以及让翻译可以从左到右进行也可以从右到左进行的“一致性规范”（agreement regularization）。

周明表示，用于实现这一里程碑的技术将不会局限于机器翻译。

“在这里，机器翻译研究可以应用于人工智能研究的全部领域。”他如是说。

而且，这些技术将来还可以让其他语言之间的翻译变得更加准确和自然。

研究人员警告称，这套系统尚未在实时新闻报道上进行测试，而且在把该技术商业化到微软的产品之前还有其他挑战需要解决。

不过，我们现在可以在微软的网站上试用这套新翻译系统，网址是：https://translator.microsoft.com/neural。（该网站警告称，这不是他们的量产系统，而且运行速度有时会很慢。）

系统将展示一条（简体）中文语句，然后以两种方式进行翻译，右边列出的是更好的翻译结果，以此展示系统带来的改进。

谷歌的研究人员也一直在从事机器翻译研究，他们为中-英文查询推出了自己的机器学习技术，其中也使用了神经网络。那些改进已经被用于提升谷歌面向消费者的产品，包括谷歌翻译应用以及在谷歌搜索中的整合。

题图人物为黄学东，他是负责微软语音、自然语言和机器翻译工作的技术专家。（图片来源：Scott Eklund/Red Box Pictures）

翻译：王灿均（@何无鱼）

Microsoft announces breakthrough in Chinese-to-English machine translation

Facebook 有了新头衔：无法卸载的垃圾应用

扎克伯格 2019 年个人挑战：探讨技术的社会作用

IBM 发布首款商用量子计算机

浏览更多……

微软宣布机器翻译技术取得突破，中翻英可媲美人类

阻止博通收购高通只是特朗普打压中国科技公司的开始

2018 年美国风投行业盘点：种子轮融资连续四年下滑

这个简单的漏洞可以让你篡改谷歌搜索结果

Facebook 有了新头衔：无法卸载的垃圾应用

扎克伯格 2019 年个人挑战：探讨技术的社会作用

IBM 发布首款商用量子计算机

Uber 的 IPO 或许不会如预期般轰动

GitHub 宣布私有代码库完全免费

德国总理默克尔及数百名议员数据被黑客泄露

马斯克不想把前女友牵扯到自己的官司中来

三星下一代旗舰机 S10 谍照曝光

儿童编程语言 Scratch 发布 3.0 版本

从 5G 到智能手机，CES 2019 六大趋势盘点

FCC 主席庆贺国会未能恢复网络中立性规则

「互联网女皇」米克尔创建新风投公司首次拟融资 12.5 亿美元

中国移动应用开发商大举进入印度市场

智能音箱年度盘点：进击的 2018

TechCrunch 的不严肃年度好物推荐

2018 年值得一看的科技书籍

逝者安息，生者坚强：盘点 2018 年倒闭的明星创业公司

PornHub 年度回顾：老司机们都在看这些内容