#alternate 安防 峰会 您 正在 使用 IE 低版 浏览器 , 为了 您 的 雷锋网 账号 安全 和 更 好 的 产品 体验 , 强烈 建议 使用 更 快 更 安全 的 浏览器 雷锋网 * AI 研习社 * AI 投研邦 * 活动 * 专题 * * 爱搞机 ____________________ Submit Submit * 业界 * 人工 智能 学术 开发者 * 智能 驾驶 新 智驾 TV * AI+ * 金融 科技 * 未来 医疗 * 网络 安全 * 智慧 城市 智慧 安防 智慧 教育 智慧 交通 智慧 社区 智慧 零售 智慧 政务 * 机器人 * 行业 云 * 智能 硬件 * 物 联网 * GAIR 人工 智能 正文 发 私信 给 李尊 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 发送 1 涨 姿势 ! 如何 评价 Google 神经 机器 翻译 ( GNMT ) 系统 ? 本 文 作者 : 李尊 2016-09-29 22:30 导语 : 独家 解读 Google 最新 发布 谷歌 神经 机器 翻译 系统 Google 最新 宣布 发布 谷歌 神经 机器 翻译 ( GNMT : Google Neural Machine Translation ) 系统 , 在 官方 博客 中 Google 称 该 系统 使用 了 当前 最 先进 的 训练 技术 , 能够 实现 到 当下 机器 翻译 质量 上 最 大 的 提升 。 听上去 十分 令 人 激动 , 不是吗 ? 有 从事 翻译 职业 的 网友 甚至 这样 形容 : 作为 翻译 , 看到 这个 新闻 的 时候 , 我 理解 了 18 世纪 纺织 工人 看到 蒸汽 机时 的 忧虑 与 恐惧 。 真 有 这么 可怕 吗 ? 让 我们 先来 回顾 下 Google Translate 的 发展 历程 。 | Google Translate 发展 历程 : 在 2006 年 Google 团队 改进 了 —— 统计 机器 翻译 ( statistical machine translation ) , 并 宣布 上线 Google Translate 翻译 功能 。 其中 , Google Translate 的 核心 技术 “ 统计 机器 翻译 ” 其 基本 思想 是 通过 对 大量 平行 语料 进行 统计 分析 、 构建 统计 翻译 模型 、 进而 使 用此 模型 进行 翻译 。 简单 来说 , Google Translate 在 生成 译文 时 , 会 在 大量 人工 翻译 的 文档 中 查找 各 种 模型 , 进行 合理 的 猜测 , 从而 得到 恰当 的 翻译 。 当时 之所以 采用 “ 统计 翻译 模型 ” 的 一 个 重要 原因 就是 Google 的 云计算 架构 。 机器 翻译 需要 海量 的 数据 存储 空间 以及 高效 的 运算 能力 , 而 Google 拥有 GoogleMapReduce ( 分布式 计算 系统 ) 和 BigTable ( 分布式 存储 系统 ) , 恰好 满足 了 这 两 方面 需求 。 几 年 前 , Google 开始 使用 循环 神经 网络 来 直接 学习 一 个 输入 序列 ( 如 一 种 语言 的 一 个 句子 ) 到 一 个 输出 序列 ( 另 一 种 语言 的 同 一 个 句子 ) 的 映射 。 其中 基于 短语 的 机器 学习 ( PBMT ) 将 输入 句子 分解 成 词 和 短语 , 然后 对 它们 的 大部分 进行 独立 翻译 , 而 神经 网络 机器 翻译 ( NMT ) 则 将 整个 输入 句子 视作 翻 译的 基本 单元 。 这 种 方法 的 优点 是 : 相比 之前 的 基于 短语 的 翻译 系统 , 这 种 方法 所 需 的 调整 更 少 。 首先 , 该 网络 将 这 句 中文 的 词 编码 成 一 个 向量 列表 , 其中 每个 向量 都 表示 了 到 目前 为止 所有 被 读取 到 的 词 的 含义 ( 编码器 “ Encoder ” ) 。 一旦 读取 完 整个 句子 , 解码器 就 开始 工作 —— 一 次 生成 英语 句子 的 一 个 词 ( 解码器 “ Decoder ” ) 。 为了 在 每 一 步 都 生成 翻译 正确 的 词 , 解码器 重点 注意 了 与 生成 英语 词 最 相关 编码 的 中文 向量 的 权重 分布 ( 注意 “ Attention ” ; 蓝色 连线 的 透明度 表示 解码器 对 一 个 被 编码 的 词 的 注意 程度 ) 。 涨 姿势 ! 如何 评价 Google 神经 机器 翻译 ( GNMT ) 系统 ? 通过 维基百科 和 新闻网 站 的 例句 测定 发现 : 在 多个 样本 的 翻译 中 , 神经 网络 机器 翻译 系统 将 误差 降低 了 55% -85% 甚至 以上 。 | 各 方 对此 评价 : 知乎 网友 Jacob Wu 对此 评价 十分 正面 : 这个 是 基于 Yoshua Bengio 团队 两 年 前 的 研究 做出 的 成果 。 目前 从 中文 翻译 到 英文 , 线上 系统 已经 使用 了 文章 中 所述 的 系统 。 我 实际 体验 了 一下 这个 系统 , 明显 超出 我的 预期 , 非常 牛 ! 另外 一 位 知乎 网友 萧瑟 则 表示 : 百度 在 1 年 半 前 就 已经 上线 了 基于 attention 机制 的 神经 网络 机器 翻译 , 和 google 一 样 都 是 基于 Yoshua Bengio 组 2015年 的 paper 做 的 改进 。 Google 的 方法 看 起来 基本 是 这 几 年 学术界 paper 的 组合 , 包括 converage , subword , residual 多层 等等 , 并没有 特别 明显 的 创新 。 不过 google 机器 翻译 组 的 迭代 实验 能力 真心 很 强 , 这个 不 能 不服 。 而且 有 足够 多 的 gpu 机器 把 8 层 神经 网络 的 模型 线上化 , 也 充分 体 现 了 google 有 多么的 土豪 。 我们 另外 有 咨询 前 百度 主任 架构 师 、 蓦然 认知 创始人 戴 帅湘 , 他 对此 评价 是 : 这个 方法 是 新 的 , 但是 应该 去年 还是 前年 论文 就 出来 了 。 以前 是 基于 短语 的 翻译 , 这个 方法 直接 用 待 翻译 的 句子 来 预测 目标 语言 中 的 词 , 去年 大家 就 都 用 这 个 方法 了 , 但是 效果 没有 宣传 的 那么 好 。 对于 Google 这 次 发布 的 新 系统 , 个人 猜测 Google 的 语料 更大 , 计算 能 力强 , 神经 网络 训练 的 细节 做了 比较 好 的 优化 , 集成 了 学术 上 最近 一些 新 改进 , 理论 框架 上 应该 没 什么 大 的 变化 。 但是 其 在 工程 上 意义 很 大 , 以前 的 方法 训练 起来 比较 辛苦 , 需要 做 很多 预处理 , 需要 分词 , 然后 特征 设置 也 要 人为 制定 一些 针对 语言 特性 的 , 特别是 词 对齐 本身 就 比较 复杂 ; 采用 NN ( 神经 网络 ) 以后 就 变得 比较 简单 的 , 上述 那些 预处理 基本 都 没有 了 , 甚至 都 不 需要 分词 , 按 字 做 也 行 。 另外 现在 主流 是 NN ( 神经 网络 ) , 既然 NN 也 能 达到 效果 , 显然 用 主流 方法 更 经济 。 | 实际 效果 : 目前 Google Translate 已 在 中英 翻译 系统 中上 线 , 在 实际 使用 过程 中 比 传统 的 机翻 体验 好 上 不少 。 但是 我们 有 注意 到 这个 情况 , 加上 语助词 之后 , 原本 的 翻译 效果 大 打折扣 。 涨 姿势 ! 如何 评价 Google 神经 机器 翻译 ( GNMT ) 系统 ? 涨 姿势 ! 如何 评价 Google 神经 机器 翻译 ( GNMT ) 系统 ? 对此 , 蓦然 认知 创始人 戴 帅湘 的 观点 是 : 针对 上面 的 例子 , 我 个人 是 这样 理解 的 , NMT 在用 平行 句 对 训练 的 时候 , 把 输入 的 源语言 句子 用 向量 进行 描述 , 通过 一 个 编码 用 的 神经 网络 转成 隐层 的 向 量 表示 , 然后 对 这个 隐层 用 另外 一 个 神经 网络 进行 解码 , 得到 目标 语言 的 向量 表示 。 这个 过程 纯粹 是 一 个 拟合 函数 的 过程 , 即使 源语言 句子 语义 一样 , 而 如 果 字面 有所 差异 的话 , 通过 这个 “ 拟合 函数 ” 映射 过去 得到 的 目标 语言 差异 也 会 很 大 , 所以 会 出现 明明 意思 没变 , 但是 加了 几 个 无关紧要 的 字 或者词 , 翻译 过去 的 句子 意思 就 会 变化 很 大 。 如果 用 基于 短语 对齐 的 翻译 模型 , 在 对齐 的 时候 通过 引入 一些 基本 的 语言 特性 , 或者 词语 重要性 识别 方法 , 就 可以 避免 这个 问题 , 这 也 是 NMT 的 缺陷 所在 , 不 能 很好地 引入 语言 本身 的 一些 特性 , 如 构词 和 句法 等 。 我 看过 一些 试验 数据 , 基于 短语 的 统计 机器 翻译 我 比较 熟悉 和 完全 基于 NN 的 效果 没有 特别 大 的 差距 。 同样 语料 训练 的话 基于 NN 的 有所 提升 , 但 不 很 显著 。 | 总结 : 对于 Google 最新 发布 的 神经 机器 翻译 ( GNMT ) 系统 , 我们 要 充分 肯定 其 在 机器 翻译 上 的 进步 。 在 同等 语料 的 情况 下 , 相较于 基于 短语 的 统计 机器 翻译 , 神经 机器 翻译 ( GNMT ) 系统 能 在 更少 工程量 的 基础 上 实现 相同 的 效果 。 但是 其 纯粹 把 输入 的 句子 当做 一 个 序列 ( 理论 上 任意 符号 序列 都 可以 ) , 不 考虑 这个 句 子 本身 作为 语言 的 特性 , 生成 的 内容 可能 会 比较 奇怪 , 难以 控制 , 错误 的 结果 也 难以 解释 。 雷锋网 原创 文章 , 未经 授权 禁止 转载 。 详情 见 转载 须知 。 3 人 收藏 分享 : 相关 文章 Google 翻译 神经 网络 机器 * 谷歌 的 Google Assistant 会 成为 下 一 个 Android 吗 ? | C ... * 三 星 或 正在 研发 第二 款 Bixby 智能 音箱 , 对 标 Google Ho ... * 凉凉 ! Google 中国 版 搜索 引擎 被 内部 “ 毙了 ” * 苹果 拒 接 裁定书 ! 高通 再 告 苹果 , 要求 禁售 iPhone XS/ ... 文章 点评 : ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 表情 [ ] 同步 到 新浪 微 博 ( BUTTON ) 提交 李尊 编辑 [ 580 ef9366 fe38.jpg ] 扫描 关注 作者 微 信 发 私信 当月 热门 文章 最新 文章 * 对话 Geoffrey Hinton&Demis Hassabis : 通用 人工 智能 离 我们 有 多远 ? * 2018 年 度 ML 、 NLP 会议 论文 大盘 点 : 周明 、 张潼 、 孙茂松 数据 亮眼 * 2018 年 度 GtiHub 开源 项目 TOP 25 : 数据 科学 & 机器 学习 * 著名 数学家 Michael Atiyah 去世 , 去年 九月 声称 证明 黎曼猜想 * 日活 超 1.6亿 , 揭秘 快手 背后 的 AI 技术 * TensorFlow 2.0 开发者 测试版 来 啦 , 正式 版 推出 指日可待 热门 搜索 阿里 乔布斯 智能 电视 开发者 Ninebot OpenAI macbook 淘宝 奔驰 处理器 空气 净化器 热门 关键字 * 热门 标签 人工 智能 机器人 机器 学习 深度 学习 金融 科技 未来 医疗 智能 驾驶 自动 驾驶 计算机 视觉 激光 雷达 图像 识别 智能 音箱 区块链 智能 投顾 医学 影像 物 联网 IoT CV 微信小 程序 平台 微信小 程序 在 哪 CES 2017 CES 2016年 最 值得 购买 的 智能 硬件 2016 互联网 小 程序 微 信 朋友 圈 抢 票 软件 智能 手机 智能 家居 智能 手环 智能 机器人 智能 电视 360 智能 硬件 智能 摄像机 智能 硬件 产品 智能 硬件 发展 智能 硬件 创业 黑客 白 帽子 大 数据 云 计算 新 能源 汽车 无人 驾驶 无 人 机 大疆 小米 无 人 机 特斯拉 VR 游戏 VR 电影 VR 视频 VR 眼镜 VR 购物 AR 直播 扫地 机器人 医疗 机器人 工业 机器人 类人 机器人 聊天 机器人 微 信 机器人 微信小 程序 移动 支付 支付 宝 P2P 区块 链 比特 币 风控 高盛 人脸 识别 指纹 识别 黑 科技 谷歌 地图 谷歌 IBM 微软 乐视 百度 三 星 s8 腾讯 三 星 Note8 小米 MIX 小米 Note 华为 小米 阿里巴巴 苹果 MacBook Pro iPhone Facebook GAIR IROS 双 创 周 云栖 大会 先 打 智能 硬件 公司 智能 硬件 QQ 红包 支付 宝 红包 敬业 福 燃料 电池 nfc 卡酷狗 音乐 苹果 邀请函 高 交会 产品 残差 神经 网络 骑 记 type - c 接口 的 好处 google vr 组装 无人 机 小米 mix 设计者 microsoft 发布会 树莓 派 3 代 收购 电脑 芯片 小牛 电动车 怎么样 啊 更多 联系 我们 关于 我们 加入 我们 意见 反馈 投稿 申请 专栏 作者 下载 雷锋网 客户端 iPhone Android Copyright © 2011-2018 www.leiphone.com 雷锋网 - 移动 互联网 智能 终端 第一 媒体 All Rights Reserved 粤 ICP 备 11095991 号 -1 [ govIcon.gif ] ICP 证 粤 B2-20150332 [ hzs4.png ] 请 填写 申请人 资料 姓名 ____________________ 电话 ____________________ 邮箱 ____________________ 微信号 ____________________ 作品 链接 ____________________ 个人 简介 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 提 交 [ BUTTON Input ] ( not implemented ) _______ 为了 您 的 账户 安全 , 请 验证 邮箱 您 的 邮箱 还 未 验证 , 完成 可获 20 积分哟 ! 重发 邮箱 修改 邮箱 请 验证 您 的 邮箱 ____________________ 立即 验证 完善 账号 信息 您 的 账号 已经 绑定 , 现在 您 可以 设置 密码 以 方便 用 邮箱 登录 ____________________ 立即 设置 以后 再说