* 机器人 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 导语 : 机器 翻译 的 波澜史 。 2016 是 由 中国 人工 智能 学会 、 中国 工程院 战略 咨询 中心 主办 , 今日 头条 、 IEEE 《 计算 科学 评论 》 协办 的 2016 机器 智能 前沿 论坛 , 这 次 论坛 同时 也 是 2 016 BYTE CUP 国际 机器 学习 竞赛 的 颁奖 仪式 。 在 MIFS 2016 上 , 孙 教授 的 演讲 回顾 了 机器 翻译 波折 的 发展 历程 , 同时 分享 了 在 神经 翻译 系统 之后 他们 在 提升 机器 翻译 上 的 实践 。 这 是 我 的 题目 , 《 当 巧妇 遇到 “ 大米 ” —— 机器 翻译 启示录 》 。 大家 一 看 就 知道 来自 中国 的 一 句 成语 , 叫 巧妇 难为 无米之炊 。 巧妇 指 好 的 算法 , 大米 是 大 数据 的 意 思 , 好 的 算法 遇上 了 大 数据 , 当然 还 得 有 一 个 灶台 , 灶台 就是 强大 的 计算 能力 。 这 三 件 事 放到 一起 , 对于 机器 翻译 就 会 产生 很多 有趣 的 事情 。 整个 的 报告 以 机器 翻译 为 主线 展开 , 大概 分 四 部分 : 第一 叫做 机器 翻译 的 波澜史 , 几十 年 的 发展 一波三折 , 非常 有 意思 ; 第二 是 机器 翻译 现在 主流 的 技术 神经 机器 翻译 , 还是 可以 改进 的 。 我 可以 给 大家 看 一些 例子 , 并不 是 谷歌 就 做 到头 了 , 还有 很多 的 空间 。 第三 就 是 机器 翻译 在 技术 实际上 是 通用 的 , 其实 它 是 个 一般性 的 原理 , 可以 放到 很多 的 领域 , 所以 我 会 讲 应用 拓展 , 用 计算机 自动 创作 古诗 为 例 。 谷歌 前 几 个 月 发布 了 新 的 机器 翻译 系统 , 这个 系统 实际上 是 完全 基于 深度 神经 网络 的 一 个 系统 。 如果说 翻译 的 最高 境界 是 Perfect , 人也 做 不 到 完美 , 谷歌 难 处理 的 语言 之一 , 所以 机器 翻译 肯定 不 好做 。 但是 不管 怎么样 这个 结果 非常 震撼 。 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 机器 翻译 兴起 , 一波三折 回顾 一下 机器 翻译 的 历史 , 这个 历史 很 有趣 。 这个 研究 应该 不 是 凡夫俗子 发起 的 , 实际上 是 有 大 智慧 的 人 开始 做 的 一 个 事情 。 机器 翻译 之 父 叫 Warren Weaver , 他 在 49年 和 信息论 之 父 香农 合著 写 过 一 本 书 , 47年 3月 4日 他 给 控制论 之 父 Norbert 写 了 一 封 信 , 在 里面 提出 了 机器 翻译 的 可能性 。 他 第二 个 说到 语言 与 逻辑 , 就 离 不 开 句法 语义 分析 , 得到 了 语义 数 分析数 才 能 抽到 逻辑 , 这 点 强调 了 语言 分析 对 机器 翻译 的 重要性 ; 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 当时 他 好像 漫不经心 写 了 一 个 备忘录 , 基本上 机器 翻译 后来 到 我们 目前 这 几十 年 的 发展 , 都 是 按 他 的 框架 做 的 , 这 是 非常 了不起 的 。 当时 从 1947年 到 56 年 , 了 波谷 , 当时 机器 翻译 其实 做 得 还是 很 好 的 , 像 哈佛 、 伯克利 都 在 投入 , 包括 中国 做 机器 翻译 很 早 , 58 、 59年 国内 就 做出 了 一些 俄中 的 机器 翻译 系统 。 一 篇 文章 , 他 最初 做 机器 翻译 是 很 积极 的 , 包括 全世界 第一 次 机器 翻译 国际 会议 也 是 他 组织 的 。 但 他 后来 实际上 下 了 一 个 判断 , 就是 机器 翻译 不行 , 做 不 了 。 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 要 把 这个 翻译 出来 , 但是 经过 机器 翻译 成 俄文 , 再 把 它 翻译 回 英语 , 得到 了 令 人 啼笑皆非 的 结果 , 这个 例子 虽然 发表 了 , 但 也 有 人 质疑 它 的 真实性 。 但 确实 能 说明 那个 时候 机器 翻译 的 水平 。 1964年 , 美国 政府 成立 了 一 个 机构 ALPAC 委员会 , 由 权威 人士 组成 , 对 当时 美国 机器 翻译 情况 进行 了 评价 。 这个 报告 非常 有名 , 也 有 人 称为 机器 翻译 的 黑 皮书 , 基本 宣布 机器 翻译 是 不可行 的 , 结论 是 全自动 机器 翻译 基本 否定 , 建议 做 机器 辅助 翻译 , 二 是 机器 翻译 遇到 了 难以 克服 的 语义 屏障 问题 , 应该 加强 对 计算机 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 下面 的 阶段 是 1967年 到 89年 , 波澜不惊 水 长流 , 机器 翻译 的 研究 中心 从 美国 转移 到 了 加拿大 和 欧洲 。 冲击波 叫 统计 机器 翻译 模型 , 也就是 最 著名 的 IBM 模型 1-5 。 以前 的 翻译 服务 是 面向 特定 用户 的 , 这个 是 面向 广大 用户 的 。 当时 很 有名 的 一 个 学者 叫 Och , 有 一 句 话 很 有名 , 说 只要 给 我 充分 的 并行 语言 数据 , 对于 任何 两 种 语言 , 我 就 可以 在 几 小时 之内 给 你 构造 一 个 机器 翻译 系统 。 我 出 系统 , 谷歌 几十 个 语言 都 是 机器 翻译 , 都 是 很 容易 做出 来的 , 所以 我 叫 理性 终结 主义 。 但 很 快 , 大概 2014年 左右 推出 了 神经 机器 翻译 , 就 把 刚才 的 终结者 再度 终结 了 。 像 谷歌 、 百度 现在 已经 用 神经 统计 机器 翻译 系统 替代 纯粹 的 统计 翻译 系统 , 所 神经 翻译 系统 并不 意味 机器 翻译 到头 了 , 还有 大量 的 创新 可做 神经 机器 翻译 系统 还是 有 很多 的 问题 , 我们 刚才 讲的 我 简单 说 一下 清华 大学 的 工作 , 我们 科技组 有 一 个 刘 老师 , 机器 翻译 做 了 很多 的 研究 , 比如说 我们 可以 把 最 小 风险 的 训练 , 不 是 用 最大 MSE , 把 这个 东西 嵌入 到 难的 , 靠 统计 机器 翻译 是 做 不 好 , 你 看 效果 就 很 差 , 这 是 我们 SMT 的 效果 。 你 用 SMT 传统 有 一些 毛病 , 我们 可以 避免 这个 问题 。 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 机器 翻译 的 拓展 应用 : 以 古 诗 创作 为例 机器 翻译 是 通用 模型 , 我 拿 它 做 古诗 创作 , 这个 工作 是 和 我 的 两 个 本科生 同学 合作 完成 的 。 这 种 通用 方法 对 我们 很多 行业 都 是 一 个 机会 , 现在 的 人工 智能 气候 已经 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 谷歌 的 神经 翻译 系统 并不 意味 着 机器 翻译 到头 了 , 还有 大把 创新 可做 | MIFS 2016 你 去 看 机器 翻译 整个 历史 , 这 句 话 特别 贴切 —— 山重水复 疑 无路 , 柳暗花明 又一村 。 我们 遇到 很多 这 种 情况 , 有的 时候 做 感觉 做到 头 了 , 但是 又 有 新的路 出来 , 不 总的 想法 就 还是 我们 要 创新 , 你 看 这个 机器 翻译 历史 上 , 我们 中国人 的 创新 很少 , 我们 基本 都 跟着 人家 跑 。 像 谷歌 的 深度 学习 神经 网络 出来 以后 , 当时 我 看到 这个 机器 翻译 机器 学习 深度 学习 * 腾讯 发布 AI 辅助 翻译 产品 : 采用 人机 交互式 机器 翻译 . . . * 对话 搜狗 口语 机器 翻译 团队 : 国际 冠军 的 诞生 * 阿里 升级 机器 翻译 , 48 种 语言 方向 , 双 11 全球 买卖 无障 ... * 2018 年 度 GtiHub 开源 项目 TOP 25 : 数据 科学 & 机器 学习 * 热门 标签 人工 智能 机器人 机器 学习 深度 学习 金融 科技 未来 医疗 智能 驾驶 自动 驾驶 计算机 视觉 激光 雷达 图像 识别 智能 音箱 2016年 最 值得 购买 的 智能 硬件 2016 互联网 小 程序 微 信 朋友 圈 抢 票 软件 智能 手机 智能 家居 智能 手环 智能 机器人 智能 电视 小米 无 人 机 特斯拉 VR 游戏 VR 电影 VR 视频 VR 眼镜 VR 购物 AR 直播 扫地 机器人 医疗 机器人 工业 机器人 类人 机器人 聊天 机器人 微 信 机器人 微信小 程序 移动 支付 支付 宝 P2P 区块 链 比特 币 风控 高盛 人脸 识别 指纹 识别 黑 科技 谷歌 地图 谷歌 buy + 法拉第 未来 高文 surface3 地平线 机器人 扣 你 妹双百 计划 川普 仿真 机器人 智能 口罩 三星 s6facebook 为什么 中国 不 能 用 小 米 5 指