最新機器人與 A.I.文章

Image credit: Google/Team Coco, YouTube

谷歌的新 AI 技术可以将两个同时在说话的人声分离出来

祕诀是深度学习结合脸部辨识技术!

Andy Yang
2018 年 4 月 13 日, 下午 02:30
Google/Team Coco, YouTube

人类一个极为强大的能力,是能在一片有着许多人在说话的背景杂音中,精准地「过滤」掉其他人的声音,只留下自己对话的对象。过去一直认为电脑要获得这样的能力不容易,但谷歌的专家们取了个巧,利用深度学习结合脸部辨识,达到了相当好的效果。

简单来说,研究学者先用「干净」的人声与对应的视觉影像混合成一个假想的吵闹场景,然后训练机器去辨识如何从场景中还原出单一的人声来,最后产生一个模型。以这个脸部与声线对应的模型为基础,喂给电脑真实世界的视频时,当脸部侦测到目标嘴巴在动,系统就会试图抓取音频,将相关的部份分离出来。如同下面的脱口秀视频所示,这效果惊人地好,不仅可以把背景的杂音滤掉,就算有两个人同时在大声说话,也可以把目标分离出来。而且,即使讲者用麦克风挡住了嘴巴,似乎也不影响辨识呢。


谷歌目前正在「探索使用这个技术到产品中的方法」,最明显的可能就是像 Hangouts 或 Duo 这样的语音通话中,只要你开着摄像头,系统就能把背景的杂音过滤掉。其他像是自动化的字幕,以及自动翻译等,也都有可能因此而受惠呢。