最新機器人與 A.I.文章

Image credit:

一起看看 Google 翻译是如何通过机器学习变得更为强大

有没有发现最近 Google 在中英互翻时更准确了呢?

Andy Yang
2017 年 5 月 3 日, 下午 06:30
大家平常有在用 Google 翻译的服务吗?有没有发现最近翻译变更精准了呢?Google 在去年九月悄悄导入了神经元网络来强化翻译的准确度,但当时并没有进一步说明到底神经元网络做了什么。今天在一场媒体说明会上,Google 翻译产品经理 Julie Cattiau 为我们介绍了旧方法与新方法的分别。

以中文为例,以前是用单词的对照表的方式,通过比对一篇文件中,一个中文字出现的位置与英文字的对照,来产生出单词的意思。虽然说单词意思都对,但在语法上就会显得不太自然,保留太多来源语言的句型结构。通过神经元网络的处理,Google 翻译会以整句为单位做处理,不仅翻译单词,还要找到适当的目标语言句法结构,让翻译结果更自然。

然而,要训练一个语言组(例如中文到英文)须要两到三周的时间和上亿组的范例,考虑到目前 Google 支持 103 种的语言,也就是超过 10,000 的语言组... 显然持续的训练是不可能的。这就是 Google 神经元网络第二个厉害的地方 -- Google 先尝试以英文为媒介,训练「英韩/韩英」和「英日/日英」的翻译后,再把神经元网络合在一起,发现它自动就可以达成「日韩/韩日」间的翻译。当然不是所有的语言都有这么直接而相似的关系,但在进一步了解什么语言与什么语言更接近后,Google 就能找到更适当的路径,在多种语言间转换,减少训练的麻烦。

Google 表示在由 0-6 的翻译准确度量尺(0 为无法理解,6 为完全翻译)上,改用神经元网络后,大部份的语言都获得了 0.5 分的进步,甚至在特定组合(例如英/法)已经和人类不相上下。不过在中文翻译上 Google 面临的挑战更大,特别是中文文字都是不断的一长串,不像英文可以简单地分成单字,所以在分数上还是比拉丁语系的低。但即便如此,神经元网络为中文「提高」的分数却是比其他语言都要高,可见神经元网络套用在中文上是特别有效的啊!

Google 翻译每月有超过五亿的使用者,每秒完成 1000 亿个字词的翻译(大概以网页为主吧?)。在全球所有的使用者中,巴西是翻译服务用最频繁的(咦),但台湾是成长最快的市场之一,去年 iOS 上的使用量增加了 60%,而 Android 更是成长两倍。目前 Google 翻译已经在 41 个语言组中导入了神经元网络的技术,预计未来会再持续增加呢。