最新ai文章

Image credit: Baidu Research

百度的 Deep Voice 系统可以快速合成真人语音

它背后的文字转语音技术还能改变声调传递不同感情。

Sanji Feng
2017 年 3 月 9 日, 傍晚 09:30
Baidu Research
除了在硅谷的人工智能中心开发自驾车技术外,百度原来还有在动些其它的脑筋啊。最近他们向公开了一套名为 Deep Voice 的文字转语音系统,根据官方描述来看,其速度和效率似乎都胜过了 Deepmind(Alphabet)正在开发的同类产品 WaveNet。按照百度的说法,Deep Voice 在几乎无须人工介入的前提下,只需短短数小时便能学会说话。而且开发人员还可以对其要传达的感情状态进行设定,这样合成出来的语音听起来就会非常真实、自然。

前面提到的 WaveNet,也可以实现类似的功能,但其需要巨大的运算力在背后支撑,而且目前还无法拿到日常环境中做实际用途。而百度表示,自己依靠深度学习技术解决了 WaveNet 尚未克服的难题。Deep Voice 会先将文字转化为音素(最小的语音单位),然后再依靠自己的语音合成网络将其变为你所听到的声音。以 Hello 这个单字为例,在最终发音前,Deep Voice 会将其拆分为(无声,HH)、(HH,EH)、(EH,L)、(L,OW)、(OW,无声)这样的音素组合。

这两个步骤都需要用到深度学习的技术,而百度(人类)的作用,在于控制要怎样给音素、音节加重音或是缩短、拖长音,「润色」之后 Deep Voice 讲的话听上去才会更显感情。不过,尽管这方面的效果很好,但 WaveNet 吃运算力的问题,Deep Voice 也还是一样头大。想要比较好地模拟出真人那样的反应,电脑必须在 20 微秒内生成词语。为了达成这一点,百度必须确保系统不会重新计算结果,而且得将整套模型放在处理器闪存而非主内存内,同时还要最大限度地利用所有能获取的运算资源。

实际上,百度已经将一些 Deep Voice 的样本放到了亚马逊的 Mechanical Turk 平台上,至今为止他们已收获了许多正面的反馈。当然,距离其真正被商用肯定还有不少时日,但就目前的完成度来说,应该会比较值得期待吧。