____________________ ( BUTTON ) 写稿 登录 注册 App 下载 下载钛 媒体 客户端 钛媒体 APP 下载 下载钛 媒体 客户端 链得 得 APP 下载 * 我 的 主页 * 我 的 订单 * 我 的 文章 * 我 的 收藏 * 我 的 订阅 * 我 的 通知 * 我 的 钛币 * 账号 设置 * 退出 English 钛媒体 * 阅读 + 话题 + 作者 + 钛妹 科幻 * TMTBASE + 数据库 + 我 造 社区 + 行研 报告 * 专业 版 VIP * 活动 [ innovate_2018.png ] 第一 时间 get 全球 最新 科技 知识 与 数据 下载钛 媒体 客户端 扫描 下载 App 当 机器 翻译 遇上 人工 智能 , 会 变得 更 靠 谱 吗 ? 脑 极体 • 2017-09-04 07:36 摘要 : 提到 机器 翻译 时 , 很多 心中 都 会 感到 疑惑 , 早 在 十几 年 前 , 我们 把 一 句 英文 放到 金山词霸 里 , 就 能 被 翻译 成 中文 。 如今 加入 了 深度 学习 技术 的 机器 翻译 , 又 能 有什 么不同 呢 ? 提到 机器 翻译 时 , 很多 心中 都 会 感到 疑惑 , 早 在 十几 年 前 , 我们 把 一 句 英文 放到 金山词霸 里 , 就 能 被 翻译 成 中文 。 如今 加入 了 深度 学习 技术 的 机器 翻译 , 又 能 有什 么不同 呢 ? 区别 当然 有 很多 , 最 典型 的 就 是 机器 翻译 能够 翻译 出 整 篇 文章 , 可 普通 的 翻译 技术 遇到 长 一点 句子 就 不 行 了 。 原因 就 是 机器 翻译 并非 简单 的 将 一 个个 单词 翻译 成 另 一 种 语言 , 而 是 可以 像人 一样 , 不断 向前 回顾 以 理解 结构 复杂 的 句子 , 并且 结合 上下文 , 理解 每 一 个 It/He/She 具体 指代 谁 。 实现 这 种 功能 , 分别 依赖于 两 种 神经 网络 架构 , 一 个 是 RNN —— 循环 神经 网络 , 另 一 个 则 是 CNN —— 卷积 神经 网络 。 最近 关于 RNN 和 CNN 哪个 更 适用 于 机 器 翻译 的 争论 也 很多 , 今天 就 来 看看 这 两 种 神经 网络 都 是 如何 加持 机器 翻译 , 拯救 外语渣 的 。 [ 1400x931&ext = .png ] RNN : 机器 翻译 中 的 Old School 首先 我们 要 明白 , 对于 机器 来说 , 翻译 就是 一 个 解码 后 再 编码 的 过程 。 如果 要 把 英语 翻译 成 中文 , 就 要 先把 英语 原文 解码 成 “ 神经 代码 ” , 再 编码 生成 中文 。 而 循环 神经 网络 的 关键 , 就 在于 循环 二 字 上 。 系统 会 “ 记住 ” 上 一 次 输出 的 内容 , 以此 来 决定 下 一 次 输出 。 有 了 上 一 次 和 下 一 次 的 概念 , 神经 网络 就 不 会 把 输入 和 输出 的 信息 看做 独立 的 , 而 是 相互 关联 的 时间 序列 。 这样 就 可以 通过 以往 的 序列 关联 猜测 到下 一 个 序列 会 出现 的 词 , 用 最 通俗 的话 讲 , 我们 听 多 了 郭德纲 的 相声 , 就 知道 “ 于谦 的 父亲 ” 这 一 元素 , 后面 接 的 一定 是 “ 王 老爷子 ” 。 在 翻译 时 , RNN 把 源语言 当做 输入 序列 , 把 翻译 语言 当做 输出 序列 , 由于 每一 次 输出 都 会 参考 上 一 次 输出 的 结果 , 所以 机器 翻译 更 具 整体性 , 而 不 是 简单 的 翻译 单词 。 目前 对 RNN 应用 的 最为 炉火纯青 的 应该 就 是 谷歌 翻译 了 , 去年 谷歌 提出 了 用 神经 网络 系统 进行 机器 翻译 , 据称 汉译 英 的 错误率 最高 下降 85% , 在 当时 还 小小 的 引起 了 一 番 轰动 。 如果说 传统 神经 网络 在 翻译 时 , 永远 是 用 一 片 空白 的 大脑 面对 每 一 个 句子 , 那么 RNN 在 翻译 时 则 拥有 持久 的 思想 , 而 谷歌 翻译 所 应用 的 LSTM 更 加强 了 这 一 点 。 LSTM 是 RNN 的 一 类 变种 , 被 译为 长短期 记忆 网络 , 是 一 种 时间 递归 神经 网络 。 RNN 的 缺陷 在于 , “ 于谦 的 父亲 - 王 老爷子 ” 这 种 间隔 很 短 的 序列 预测 以 前 很 容易 , 但 要 预测 “ 今天 出门 晚了 , 所以 上班 [ ] ” 这 类 句子 , 需要 联系 到 间隔 较 远 的 上下文 , 这时 RNN 可能 就 表现 的 没 那么 优秀 了 。 而 LSTM , 就 可以 学习 和 理解 这 种 长期 依赖 关系 。 LSTM 通过 一系列 计算 将 句子 中 的 各 个 元素 的 特征 构建 成 非线性 的 组合 , 同时 还 设立 了 “ 遗忘 机制 ” , 将 权 重 较 低 的 元素 遗忘 掉 。 这 就 意味 着 LSTM 可以 “ 更新 ” 记忆 , 让 长期 依赖 因素 不断 的 存在 于 距离 较 近 的 神经 元中 。 CNN : GPU 的 宠儿 就 在 RNN 机器 翻译 还 在 不断 更新 时 , 又 有 人 提出 了 将 CNN —— 卷积 神经 网络 应用于 机器 翻译 之上 。 从 上文 我们 可以 得出 结论 , RNN ( LSTM ) 机器 翻译 按照 序列 进行 工作 , 也 就 是 和 人 一样 , 按照 顺序 一 个个 的 进行 翻译 。 但 要 记住 的 一 点 是 , 目前 比较 主流 的 GPU 最 大 的 有点 是 可以 进行 并行 计算 。 这样 一 来 RNN 就 没法 最大化 利用 GPU 的 计算 能力 。 [ ! 1400x473&ext = .png ] 而 CNN 则 可以 同时 处理 多个 语言 片段 , 并且 具有 信息 分层 处理 能力 。 将 文本 序列化 、 单词 向 量化 , 经过 分层 处理 后 再 输出 结果 。 在 分层 过程 中 , 还 会 不断 回顾 源 文本 来 确定 下 一 个 输出 序列 。 提出 这 种 技术 的 是 Facebook 和 最近 的 机器 翻译 新秀 DeepL 。 在 上半年 时 , Facebook 宣布 推出 了 基于 CNN 开发 的 语言 翻译 模型 , 据说 比 基于 RNN 开发 的 语言 翻译 模型 速度 快 9 倍 , 而且 准确率 更高 。 在 测试 上 , Facebook 翻译 系统 在 英语 - 德语 、 英语 - 法语 的 测试 上 都 比 RNN 更 接近 人工 翻译 。 而 来自 德国 的 DeepL 更是 在 冰岛 放 了 台 世界 排名 23 名 的 超级 计算机 , 每 秒 能 执行 5.1 peta 浮点 运算 , 只 为了 训练 他们 的 神经 网络 。 [ 1400x1015&ext = .png ] 从 他们 自己 展示 的 数据 看来 , DeepL 的 成绩 已经 远 超 Facebook 、 微软 甚至 谷歌 。 不过 不管是 CNN 还是 RNN 都 不 是 机器 翻译 的 终点 , 比如 谷歌 近期 提到 的 不 基于 RNN 的 注意力 机制 , 以及 多层 神经 网络 、 深度 神经 网络 等等 , 都 是 解决 机器 翻 译的 方法 。 在 速度 、 计算 资源 消耗 、 情感 理解 等等 多 种 维度 上 都 有 不同 的 表现 。 如果 从 最终 的 实用性 来说 , 神经 网络 模型 能 影响 到 的 仅仅 只是 一 部分 。 更 多 的 是 语料库 的 大小 、 繁重 的 语料 标注 工作 等等 , 同时 这 也 注定 了 蒙古语 、 藏语 这 种 语料 较少 语言 仍然 无法 受益于 机器 翻译 。 目前 的 机器 翻译 , 基本 还 停留 在 辅助 人工 翻译 的 阶段 。 不论是 DeepL 的 超级 计算机 , 还是 谷歌 的 抛开 神经 网络 , 都 可以 理解 成 在 技术 上 的 一 种 “ 炫技 ” 。 比使 用 哪 种 神经 网络 更 重要 的 , 还是 应该 让 机器 翻译 更 多 的 进入 我们 的 生活 。 更多 精彩 内容 , 关注 钛 媒体 微 信号 ( ID : taimeiti ) , 或者 下载钛 媒体 App 本 文 系 作者 脑 极体 授权钛 媒体 发表 , 并 经钛 媒体 编辑 , 转载 请 注明 出处 、 作者 和 本文 链接 。 人工 智能 | + - 投稿 | + - 谷歌 | + - 微软 | + - 分享 到 : 5 5 [ tmt_public_hao.jpg ] 第一 时间 获取 TMT 行业 新鲜 资讯 和 深度 商业 分析 , 请 在 微信 公众 账号 中 搜索 「 钛媒体 」 或者 「 taimeiti 」 , 或 用 手机 扫描 左方 二维码 , 即 可 获得 钛媒体 每 日 精华 内容 推送 和 最优 搜索 体验 , 并 参与 编辑 活动 。 脑 极体 脑 极体 写 让 你 脑洞 大开 且 能 看懂 的 人工 智能 、 流 媒体 、 海外 科技 ( BUTTON ) 关注 猜 你 喜欢 评论 ( 2 ) 【 登录 后 才 能 评论 哦 ! 点击 登录 】 * 历史 的 旋律 winson 历史 的 旋律 winson 回复 0 靠谱 , 又 不 是 合同 , 不 需要 太 专业 的 2017-09-04 10:33 via weibo * 宫本 笑 外 宫 本 笑 外 回复 0 机器 翻译 不 准 的 , 而且 中华 文化 博大 精深 , 英文 翻译 中文 还好 , 就算 有 多少 错误 还是 能 懂 , 但是 中文 很 难 翻译 成 英语 , 毕竟 一 个 字 很多 意思 , 尤其是 有些 不常 用的 2017-09-04 09:16 via weibo Oh ! no 您 是否 确认 要 删除 该 条 评论 吗 ? ( BUTTON ) 确定 ( BUTTON ) 取消 脑 极体 脑 极体 发表 于 2017-09-04 07:36 5 5 2 7 分享 到 新浪 微 博 分享 到 微信 分享 到 微信 朋友 圈 发现钛 媒体 关于 钛 媒体 移动 客户端 钛币 商城 投稿 须知 交流 与 合作 创业 求 报道 广告 合作 意见 与 建议 友情 链接 联系 我们 公众 号 内 回复 “ 用户 群 ” 即 可 加入 钛 媒体 用户 官方 交流 群 。 钛媒体 公众 号 公众 号 内 回复 “ 用户 群 ” 即 可 加入 钛 媒体 用户 官方 交流 群 。 钛空舱 公众 号 公众 号 内 回复 “ 用户 群 ” 即 可 加入 钛 媒体 用户 官方 交流 群 。 链得 得 App 下载 © 2019 TMTPost 京 ICP 备 13040123号 -1 京 公网 安备 京 公网 安备 11010502034336 号 普通 投稿 普通 投稿 ( BUTTON ) 立即 投稿 小说 投稿 小说 投稿 ( BUTTON ) 立即 投稿 默认 您 同意 协议 内容 , 投稿 前 请 仔细 阅读 投稿 协议 钛媒体 通行证 VIP 专业 版 999 / 年 VIP 专业 版 支持 的 支付 银行 登录 + 86 ____________________ ____________________ ____________________ 验证 码 走 丢了 忘记 密码 ? [X ] 记住 我 ( BUTTON ) 登录 或 注册 , 有 问题 ? 联系 我们 手机号 未 绑 定 + 86 ____________________ ____________________ ( BUTTON ) 发送 验证 码 ( BUTTON ) 完成 我们 会 向 您 的 手机号 发送 验证 码 , 请 查收 并按 提示 验证 您 的 手机号 。 如果 您 没有 收到 短信 , 请 留意 垃圾 短信 拦截 注册 邮箱 未 验证 我们 已 向 下方 邮箱 发送 了 验证 邮件 , 请 查收 并按 提示 验证 您 的 邮箱 。 ____________________ [ BUTTON Input ] ( not implemented ) ____________ 保存 取消 重新 发送 验证 邮件 如果 您 没有 收到 邮件 , 请 留意 垃圾 邮件 箱 。 更换 邮箱 您 当前 使用 的 邮箱 可能 无法 接收 验证 邮件 , 建议 您 更换 邮箱 ____________________ [ BUTTON Input ] ( not implemented ) ____________ 完成 取消 账号 合并 经 检测 , 你 是 “ 钛媒体 ” 和 “ 商业 价值 ” 的 注册 用户 。 现在 , 我们 对 两 个 产品 因 进行 整合 , 需要 您 选择 一 个 账号 用来 登录 。 无论 您 选择 哪个 账号 , 两 个 账号 的 原有 信息 都会 合并 在一起 。 对于 给 您 造成 的 不便 , 我们 深 感 歉意 。 钛媒体 账号 ( BUTTON ) 选择 此 账号 商业 价值 账号 ( BUTTON ) 选择 此 账号 选好 了