只 服务 于 独立 思考 的 人群 ____________________ ( BUTTON ) 正午 摩尔 * 首页 * 天下 * 中国 * 地方 * 宏观 * 国是 * 娱乐 * 体育 * 时尚 * 文化 * 旅行 * 生活 * 游戏 * 视频 * 歪 楼 * 数据 * APP [ DEL : ◇ : DEL ] + iPhone + Android + 关注 [ DEL : ◇ : DEL ] + RSS + 微 博 + 微信 互动 [ DEL : ◇ : DEL ] + 报料 + 投稿 + 召集令 + 好问 登录 + 消息 + 我 的 面点 + 我 的 关注 + 我 的 文章 + 投稿 + 报料 + 帐号 设置 + 退出 * 商业 * 科技 * 汽车 * 地产 * 证券 * 金融 * 消费 * 工业 * 交通 * 投资 * 营销 * 职场 * 管理 * 创业 * 出国 * 楼市 * 财富 科技圈 日常 人工 智能 翻译 004 [ qr-code-s.jpg ] 扫 一 扫 下载 界面 新闻 APP 其他 途径 关注 界面 … AI 入侵 翻译 , 神经 机器 翻译 进化 让 巴别塔 7 年 内 成真 看到 机器 翻译 巨大 价值 的 绝非 只有 谷歌 , 中国 的 百度 、 华为 、 阿里 和 腾讯 都 有 研究 , Facebook 和 微软 等 巨头 也 没有 落后 。 新 智元 · 2017/06/05 15:37 浏览 4.8W 字体 : 宋 作者 : 胡祥杰 随着 AlphaGo 战胜 柯洁 , AI 所 激起 的 惊慌 不仅 在 围棋界 蔓延 , 而且 扩展 到 了 几乎 每 一 个 领域 , 翻译 受到 的 冲击 尤为 严重 。 深度 学习 的 出现 极大地 变革 了 机器 翻译 : 2013年 以来 基于 神经网 络的 机器 翻译 在 速度 和 准确度 将 翻译 水平 提升 到了 新 的 台阶 。 当下 , 科技 巨头 的 激烈 争夺 以及 学术界 百花齐放 的 研究 下 , 机器 翻译 水平 仍 在 不断 地 进化 当中 , 超过 人类 水平 只是 时间 问题 。 在 新 的 智能 时代 中 , 翻译 这个 “ 古老 ” 的 职业 会 消失 吗 ? “ 从事 翻译 的 人 很 可能 会 看到 一些 工作 机会 在 不断 消失 , 他们 必须 要 习惯 一 种 ‘ 创业 思维 ’ 。 ” 5月 27日 , 中国 围棋 大师 柯洁 在 与 AlphaGo 的 围棋 对 决中 输掉 最后 一 盘 , 0:3 输掉 全部 比赛 。 当下 , AI 所 激起 的 惊慌 不仅 在 围棋界 蔓延 , 而且 扩展 到 了 几乎 每 一 个 领域 , 翻译 受到 的 冲击 尤为 严重 。 现在 , 谷歌 等 公司 向 全世界 提供 免费 的 翻译 服务 , 并且 , 已经 可以 提 供 “ 可 理解 ” 的 翻译 结果 。 牛津 大学 最近 完成 了 一 项 对 机器 学习 研究 人员 的 大型 调查 , 调查 内容 是 他们 对 AI 进展 的 看法 。 综合 这些 研究 人员 的 预测 , 未来 10 年 , AI 将 在 许多 活动 中 表现 超过 人类 , 例如 翻译 语言 ( 到 2024年 ) , 具体 预测 见下表 : 近年 来 , 深度 学习 对 翻译 的 最大 影响 , 来自 基于 神经 系统 的 机器 翻译 ( NMT ) , 这 一 技术 将 机器 翻译 的 准确率 大大 提升 。 [ 14966482077487300.jpg ] 谷歌 2016年 推出 可 商业 部署 的 神经 系统 机器 翻译 , 准确率 达 86% 在 十 年 前 推出 时 , 谷歌 翻译 采用 的 是 基于 词组 的 机器 翻译 ( PBMT ) , 几 年 前 , 谷歌 大脑 团队 开始 使用 循环 神经 网络 ( RNN ) , 直接 学习 输入 序列 到 输出 序列 之间 的 映射 。 基于 词组 的 机器 翻译 ( PBMT ) 是 将 句子 拆分 成 字词 后 单独 翻译 , 而 神经 网络 机器 翻译 ( NMT ) 则 将 输入 视为 一 个 整体 进行 翻译 。 这样 做 的 好处 是 翻译 时 需要 进行 的 调整 少 了 很多 。 当 神经 网络 机器 翻译 技术 刚刚 出现 时 , 就 在 中等 规模 的 公共 数据 集上 取得 了 与 PBMT 不相上下 的 成绩 。 自 那时 起 , 从事 机器 翻译 研究 的 人 提出 了 很多 种 方法 改善 NMT , 包括 使用 注意力 将 输入 和 输出 对齐 , 将 单词 拆分 成 更 小 的 单元 或 模仿 外部 对齐 模型 应对 生僻 字词 。 尽管 如此 , NMT 的 表现 仍 是 不足以 成为 产品 被 大 规模 部署 。 下面 的 动图 展示 了 GNMT 进行 汉英 翻译 的 过程 。 首先 , 网络 将 汉字 ( 输入 ) 编码 成 一 串 向量 , 每个 向量 代表 了 当前 读到 它 那里 的 意思 ( 即 e 3 代表 “ 知识 就 是 ” , e5 代表 “ 知识 就 是 力量 ” ) 。 整 句 话 读完 之后 开始 解码 , 每次 生成 一 个 作为 输出 的 英语 单词 ( 解码器 ) 。 要 每 一 步 生成 一 个 翻译 好 的 英语 单词 , 解码器 需要 注意 被 编码 中文 向量 的 加权 分布 中 , 与 生成 英语 单词 关系 最为 密切 的 那个 ( 上图 中 解码器 d 上面 多条 透明 蓝线 中 颜色 最 深 的 那 条 ) , 解码器 关注 越 多 , 蓝色 越深 。 使用 人类 对比 评分 指标 , GNMT 系统 生成 的 翻译 相比 此前 有 了 大幅 提高 。 在 几 种 重要 语言 中 , GNMT 将 翻译 错误 降低 了 55% -58% 。 此外 , 谷歌 大脑 团队 还 宣布 GNMT 汉英 英汉 试用 版 上线 。 现在 , 谷歌 翻译 汉英 语言 的 移动 版 和 网页 版都 率先 使用 GNMT , 每天 负责 1800万 次 翻译 任务 。 谷歌 大脑 团队 表示 , GNMT 的 上线 得益于 TensorFlow 和 深度 学习 专用 加速器 张量 处理 单元 ( TPU ) , 尤其是 后者 , 提供 了 足够 的 计算 能力 来 部署 这些 功能 强大 的 GNMT 系统 , 同时 满足 谷歌 产品 严格 的 延迟 要求 。 谷歌 大脑 团队 表示 , 今后 的 几 个 月 里 将 持续 推出 更 多 的 语种 服务 用户 。 机器 翻译 的 挑战 仍然 存在 。 GNMT 还是 可能 会 犯 一些 人类 绝对 不 会 犯 的 错 , 比如 漏译 、 误译 专有 名词 或 罕见 词 , 翻译 时 没有 考虑 到 整段 话 乃至 全文 的 意思 。 总之 , GNMT 有待 改善 的 地方 还 有 很多 , 但 无论 如何 , GNMT 都 代表 了 一 座 重大 的 里程碑 。 他们 感谢 过去 几 年 中 谷歌 内外 以 各 种 形式 参与 这项 工作 的 研究 人员 和 工程师 。 谷歌 最新 技术 在 将 英语 翻译 为 西班牙语 时 , 最高 将 准确率 提高 到 87% 现在 谷歌 翻译 在 中国 已经 可以 使用 , 这 被 认为 是 谷歌 计划 回归 中国 的 前哨 。 谷歌 成为 “ 被 超越 者 ” , 巨头 纷争 促进 商业化 看到 机器 翻译 巨大 价值 的 绝非 只有 谷歌 , 中国 的 百度 、 华为 、 阿里 和 腾讯 都 有 研究 , Facebook 和 微软 等 巨头 也 没有 落后 。 这 一 种 竞争 态势 , 将 会 最大 程度 地 推进 机器 翻译 的 商业化 部署 , 进而 变得 对 更 多 的 人 “ 可用 ” 。 1 . 百度 : 比 谷歌 早 一 年 , 口译 领先 12月 21日 , 百度 举行 机器 翻译 技术 开放日 。 负责人 吴华 博士 说 , 谷歌 翻译 在 基于 统计 的 机器 翻译 上 做 得 很 好 , 处于 领先 地位 , 但是 在 基于 神经 网络 的 机器 翻译 上 , 百度 走在 了 前面 。 并且 , 谷歌 翻译 是 以 英语 为 中心 的 , 百度 翻译 的 中心 是 中文 。 另外 , 在 语音 的 翻译 上 , 百度 要 领先 一些 。 在 接受 新 智元 的 专访 时 , 她 说 : “ 谷歌 翻译 是 处在 一 个 领先 地位 的 , 但 我们 的 优势 在于 , 在 基于 神经 网络 的 技术 上 , 我们 是 有点 领先 的 。 谷歌 翻译 发 新闻 通稿 , 里 面 也 引用 了 我们 很多 之前 发表 的 一些 文章 , 这个 大家 如果 关注 的话 可以 查到 。 在 神经 网络 这 条 线上 我们 是 走在 前面 的 , 虽然 他们 在 统计 翻译 里 还是 走在 前面 的 。 ” 她 还 补充 道 : “ 在 线上 的 翻译 系统 里 , 我们 在 口语 翻译 上 实际上 是 明显 超越 谷歌 的 , 这 一 点 大家 可以 随便 去 试试 看看 。 ” 2 . 华为 : 与 谷歌 翻译 持平 , 提高 译文 重视 度 华为 诺亚 方舟 实验室 在 他们 一 篇 被 AAAI 2017 录用 的 论文 里 提出 了 一 个 新 的 神经 机器 翻译 ( NMT ) 模型 , 引入 基于 重构 的 忠实 度 指标 , 结果 显示 该 模型 确实 有效 提高 了 机器 翻译 的 表现 。 华为 诺亚 方舟 实验室 的 研究 人员 表示 , 他们 的 NMT 技术 与 谷歌 持平 。 研究员 在 同一 测试 数据 集上 对 谷歌 、 微软 必应 、 及 诺亚 的 系统 做 了 评测 ( 百度 翻译 因为 直接 记录 了 该 测试 集 , 无法 直接 比较 ) , 结果 如下 图 所 示 。 指标 是 业界 标准 BLEU 点 , 一般来说 人 的 BLEU 值 在 50 - 70 之间 。 谷歌 系统 比 诺亚 系统 高大概 3 个 BLEU 点 。 研究员 分析 , 这 主要 是 因为 谷歌 系统 集成 了 业界 多 种 最新 技术 ( 包括 诺亚 的 Coverage 技术 ) , 以及 使用 了 更 大 的 训练 数据集 ( 据说 数亿 句 对 vs. 一百万 句 对 ) 。 其实 他们 在 方法 上 的 创新 并不 多 。 可以 说 诺亚 的 基本 技术 与 谷歌 是 持平 的 。 3 . Facebook 使用 CNN 技术 而非 传统 的 RNN , 翻译 速度 比 谷歌 快 9 倍 Facebook 今天 发布 了 一 项 新 的 机器 翻译 技术 , 使用 CNN 技术 而非 传统 的 RNN , 在 翻译 准确度 超越 了 此前 被 认为 是 2016年 10 大 AI 突破 技术 的 谷 歌 机器 翻译 , 并且 翻译 速度 上 快了 9 倍 。 Facebook 称 , 创下 新 的 世界 纪录 。 目前 , 这 一 技术 已经 开源 。 Facebook 在 官方 博客 中 称 , 他们 的 技术 在 机器 翻译 峰会 ( WMT ) 所 提供 的 公共 基准 数据 集上 , 相比 RNNs2 , 取得 了 新 的 最高 水准 。 特别是 , 基于 CNN 的 模型 准确度 也 超越 了 被 用 于 评判 机器 翻译 准确度 的 业界 广泛 认可 的 数据集 WMT 2014 英语 - 法语 翻译 任务 中 的 历史 记录 1.5 BLEU 。 在 WMT 2014 英语 - 德语 的 翻译 中 , 提升 是 0.4 BLEU , WMT 2016 英语 - 罗马尼亚语 , 提升 到 1.8 BLEU 。 基于 神经 网络 的 机器 翻译 技术 要 用于 实践 , 其中 的 一 个 考虑 的 要素 是 , 在 我们 把 一 句 话 输入 系统 以后 , 需要 花 多长 时间 , 才 能 获得 相应 的 翻译 。 FAIR 的 CNN 模型 在 计算 上 是 非常 高效 的 , 比 企鹅 比 最 强 的 RNN 系统 要 快 9 倍 。 有 很多 的 研究 一直 的 着眼 于 如何 通过 量化 权重 或者 精馏 ( distillation ) 的 来提 升 速度 , 这些 方法 同样 也 能被 用到 CNN 的 模型 中 , 来 提升 速度 , 甚至 还 能 提升 更多 。 这 意味 着 , CNN 有 着 巨大 的 潜力 。 4 . 阿里巴巴 : 一年 2500亿 次 调用 , 节省 25亿 美元 阿里 翻译 团队 自 2016年 10月 起 正式 开始 自主 研发 NMT 模型 , 2016年 11月 首 次 将 NMT 系统 的 输出 结果 应用 在 中英 消息 通讯 场景 下 的 外部 评测 中并取 得了 不错 的 成绩 , 翻译 质量 有 了 大幅度 提升 。 在 2017年 4月份 的 英俄 电商 翻译 质量 优化 项目 中 , 分布式 NMT 系统 大大 提高 了 训练 速度 , 使 模型 训练 时间 从 20 天 缩短 到 了 4 天 , 为 项目 整体 迭代 和 推进 节 省 了 很多 时间 成本 。 学术界 的 百花齐放 : 争鸣 的 研究 为 翻译 应用 提供 坚实 的 技术 支撑 学术界 对 神经 机器 翻译 ( NMT ) 的 研究 兴趣 不减 。 今年 到 5 月份 为止 , 在 开放 存取 论文 网站 arXiv.org 上 发表 的 有关 NMT 的 研究 论文 数量 几乎 相当于 2016年 全年 的 该 主题 论文 数量 。 研究 领域 的 火热 , 对于 提供 商业 可用 的 翻译 技术 提供 了 最 强大 的 技术 支撑 。 截至 5月 7日 , arXiv.org 存储 库中 在 标题 或 摘要 中 包含 NMT 的 论文 共 有 137 篇 , 其中 2014年 发表 的 只 有 7 篇 , 2015年 增加 到 11 篇 。 发生 突破 的 是 2016年 , 发表 的 论文 达到 67 篇 。 腾讯 今年 有 两 篇 论文 贡献 出来 。 一 篇 来自 其 深圳 的 AI Lab ( 《 神经 机器 翻译 源 句法 建模 》 ( Modeling Source Syntax for Neural Machine Translation ) ) ; 另 一 篇 , 来自 腾讯 移动 互联网 部门 ( 《 使用 线性 关联 单位 的 深度 神经 机器 翻译 》 ( Deep Neural Machine Translation with Linear Associative Unit ) ) , 这 是 和 苏州 大学 、 中国 科学院 及 都柏林 大学 的 联合 研究 。 北京 的 微软 亚洲 研究院 今年 也 开始 进行 NMT 方面 的 研究 。 本 月 刚 上 传 了 两 篇 论文 ( 《 对抗 神经 机器 翻译 》 ( Adversarial Neural Machine Translation ) 和 《 MAT : 图像 字幕 多 模态 转换器 》 ( MAT : A Multimodal Attentive Translator for Image Captioning ) ) 。 谷歌 论文 : https : //arxiv.org/abs/1703.03906 哈佛大学 论文 : https : //arxiv.org/abs/1701.02810 Facebook 论文 : https : //s3.amazonaws.com/fairseq/papers/convolutional-sequence-to - sequence-learning.pdf 腾讯 论文 : https : //arxiv.org/abs/1705.01020 中国 移动 论文 : https : //arxiv.org/abs/1705.00861 微软 论文 : https : //arxiv.org/abs/1704.06933 应用 层面 的 机器 翻译 : 目前 胜 在 免费 和 速度 就 在 柯洁 与 AlphaGo 进行 第三 场 比赛 的 那 一 天 。 韩国 科学 技术 院的 生物 与 大脑 工程 教授 Jung Jae-seung 在 一 场 名为 “ 人工 智能 与 翻译 的 未来 ” 的 论坛 上 说 , AI 驱动 的 翻译 将 会 承担 大量 现有 人类 翻译 所 做 的 工作 。 “ 如果 能 理解 不同 语言 之间 的 文化 , 并 为 之 产生 最 好 的 相应 文本 , 就 可以 定义 为好 的 翻译 的话 , 基于 人工 智能 的 翻译 因为 能够 从 不同 的 文化 中 搜集 大量 的 数据 , 所 以 肯定 在 最后 会 超越 人类 ” , 他 说 。 他 还 提到 了 今年 2月 , 国际 翻译 协会 ( International Interpretation and Translation Association ) 组织 的 一 场 人机 翻译 竞赛 。 那 场 比赛 得出 的 结果 是 , 如果 忽视 速度 和 成本 , 人 目前 在 翻译 的 准确度 上 确实 比 机器 更 高 一筹 。 “ 我们 不 应该 认为 这 一 差距 在 未来 还 会 持续 ” , Jung 说 , “ 虽然 很 难 接受 , 但是 考虑 到 有 充足 的 数据 , 谷歌 等 科技 公司 会 有 巨大 的 优势 。 正如 AlphaGo 击败 了 李世石 一样 , 我们 都 不 知道 它 到底 有 没 有 理解 游戏 规则 。 AI 驱动 的 翻译 可能 也 会 直接 跳跃 过 理解 句子 的 阶段 , 在 翻译 上 超越 人类 ” 。 AI 驱动 的 翻译 目前 最 大 的 好处 在于 免费 和 速度 快 。 “ 如果 AI 驱动 的 翻译 准确率 能 达到 93% , 而 几乎 不 需要 付出 什么 成本 , 并且 速度 极快 。 那么 , 人们 会 在 大多数 的 翻译 场景 下 使用 它 ” , Jung 说 。 在 口译 领域 , 同样 的 颠覆性 变革 也 正在 发生 , 在 这 一 行业 中 , 速度 的 重要性 远比 笔译 要 高 。 AI 驱动 的 翻译 能够 以 词 对 词 的 速度 实时 翻译 人们 的 讲话 , 并且 同时 提供 声音 和 字母 , 现在 , 机器 可以 翻译 的 语言 有 几十 种 。 但是 , Jung 还 表示 , AI 驱动 的 翻译 也 有 一些 积极 的 方面 , 它 可以 帮助 人类 翻译 的 发展 。 “ 通过 分析 AI 驱动 的 翻译 的 各 种 特征 并 确定 其 优缺点 , 翻译 人员 可以 更 有效 地 工作 。 翻译 和 口译 院系 需要 积极 主动 地 将 AI 驱动 的 翻译 纳入 课程 。 “ 他 说 。 未来 , 翻译 会 走向 何方 ? Jung 的 总结 是 , “ 个性化 ” 和 “ 创业 思维 ” , 当 涉及 高 水平 的 语言 , 比如 文学 时 , 由于 数据 的 缺乏 AI 驱动 的 翻译 可能 不 会 做得 那么 好 。 翻译者 应该 强调 自己 的 人性 , 在 翻译 中 增加 个性化 的 东西 , 增加 翻译 的 可读性 。 他 说 : “ 我们 现在 所处 的 时代 , 机器 会 不断 地 无情 地 拷问 我们 —— 你 的 工作 有 什么 价值 ? 它 是否 富有 创造性 ? 翻译员 需要 找 一 个 新 的 方式 来 做 贡献 , 这 与 此前 有 很 大 的 不一样 。 未 经 正式 授权 严禁 转载 本文 , 侵权 必究 。 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 表情 您 至少 需 输入 5 个 字 ( BUTTON ) 发布 评论 0 加载 更多 相关 文章 亚马逊 成 市值 最大 公司 并不 意味 着 它 将 统治 世界 亚马逊 成 市值 最大 公司 并不 意味 着 它 将 统治 世界 腾讯 科技 · 昨天 19:18 我们 交给 共享 充电 宝 的 押金 , 都 去 哪 了 ? 我们 交给 共享 充电 宝 的 押金 , 都 去 哪 了 ? 央视 财经 · 昨天 19:15 雷军 失态 , 小米 失势 雷军 失态 , 小米 失势 判官 老 司机 · 昨天 15:30 新 智元 界面 JMedia 联盟 成员 智能 + 中国 的 资讯 社交 平台 , 致力于 推动 中国 从 互联网 + 迈向 智能 + 新 纪元 。 重点 关注 人工 智能 、 机器人 、 大 数据 、 虚拟 现实 、 量子 计算 、 智能 医疗 等 前沿 领域 发 展 , 关注 人机 融合 、 人工 智能 和 机器人 革命 对 人类 社会 与 文明 进化 的 影响 , 领航 中国 新 智能 时代 。 关注 作者 已 关注 私信 推荐 阅读 雷军 失态 , 小米 失势 雷军 失态 , 小米 失势 判官 老 司机 · 01 / 13 我们 交给 共享 充电 宝 的 押金 , 都 去 哪 了 ? 我们 交给 共享 充电 宝 的 押金 , 都 去 哪 了 ? 央视 财经 · 01 / 13 亚马逊 成 市值 最大 公司 并不 意味 着 它 将 统治 世界 亚马逊 成 市值 最大 公司 并不 意味 着 它 将 统治 世界 腾讯 科技 · 01 / 13 《 歌手 》 的 “ 七 年 之 痒 ” 《 歌手 》 的 “ 七 年 之 痒 ” 音乐 财经 · 01 / 13 什么样 的 华语 电影 在 北美 市场 票房 表现 最好 ? 什么样 的 华语 电影 在 北美 市场 票房 表现 最好 ? 影视 产业 观察 · 01 / 13 媒体 称 权 健 欲 做 无罪 辩护 无人 接案 律师 : 权健 或 面临 数 罪 并 罚 媒体 称 权 健 欲 做 无罪 辩护 无人 接案 律师 : 权健 或 面临 数 罪 并 罚 曾 金秋 · 01 / 13 中国 共产党 第十九 届 中央 纪律 检查 委员会 第三 次 全体 会议 公报 中国 共产党 第十九 届 中央 纪律 检查 委员会 第三 次 全体 会议 公报 新华社 · 01 / 13 欢聚 时代 创始人 李学凌 : 专注 全球化 和 人工 智能 欢聚 时代 创始人 李学凌 : 专注 全球化 和 人工 智能 柯晓斌 · 01 / 13 界面 ( 上海 ) 网络 科技 有限 公司 版权 所有 © 2014-2019 JIEMIAN.COM * 关于 我们 * 联系 我们 * 广告 合作 * 注册 协议 * 投稿 须知 * 版权 声明 * 举报 及 处置