Neon 的「人造人」虚拟化身至少在目前更像是为 CES 准备的噱头

会前把人的胃口吊太高了...

Sanji Feng
Sanji Feng
2020年01月9日, 晚上 10:54
NEON
在 CES 前被不少人猜测为此次大会最重要发布之一的 Neon 人造虚拟化身,几乎具备了所有能抓到眼球的关键要素。它的背后有大企业撑腰(这间 STAR Labs 有三星的投资),而且还跟 AI、「人造人」等等听上去就很厉害的词联系在一起。在公布前几天,甚至有 Reddit 用户挖出了未公开的视频,之后更引来 YouTube 频道对 Neon 的技术以及这家实际仅成立了近半年的公司进行深入的探讨分析。

毫无意外,在如此全方位的造势之下,人们对 Neon 发布会的期待值一下子被拔高了许多。只不过实际的结果是,这种活动中充斥着各种夸张、晦涩的机器学习用语。官方虽然承诺这是一套「能即时反应」的虚拟化身解决方案,但对于其未来的发展方向,却只是以一些含糊、宽泛的概念来一笔带过。

按照 Neon 创始人、STAR Labs 主管 Harrison Wells Pranav Mistry 的说法,Neon 将会「跟我们的世界整合并能成为其与更美好未来之间的全新桥梁」,而所谓的「更美好未来」,指的是一个「人恒为人但机器亦通人性」的世界。这样的描述,好像是在说 Neon 会变成类似数字对话伙伴那样的存在,而其互动方式也会更趋近于真人。在人与未来的虚拟助理之间构建起更融洽的联系纽带,这似乎就是 Neon 的目标,听上去确实再理想不过了。

要想搞清楚这些话具体代表着什么,以及 Neon 要如何来将其实现,当真不是件易事。所以在开始前,我们要先进行一些说明。首先,Neon 这套虚拟化身方案的背后,其实是由两方面的技术来支撑。其一被称为 Core R3,是「Reality Realtime Responsive」(现实、即时、响应)这三个词的统称。它代表的是 Neon 外型、动作的生成过程,目标是创造一种「超越一般感知的现实存在」。在这部分 Neon 公司会将自己的独家技术和神经网络结合在一起,以真人为原型,来创造对应的人造化身。

在 CES 现场展示的 Neon 互动形象便都是基于真人的产物,但官方声称所有的动作和表情都是依靠新技术独立生成。而上周在网络上流传的那些 Neon 视频,里面的人之所以拟真度那么高,搞到最后只是因为它们的的确确就是拍摄的真人画面... 在 Neon 展区内的真人大小化身演示下面,其实都有一行小小的声明,说到底它们只是在展示 Neon 未来理想中的型态和表现而已。诚然,在官方的介绍中 Core R3 有着非常光明的前景,但至少现阶段的成品距离人们的期待还有者相当大的差距。

据称 Core R3 依靠神经网络技术,针对人类的外型、举止、互动进行了「大量的训练」。在台上进行说明的时候,Pranav Mistry 向大家展示了在经过差不多四个月后,现有的 Neon 相较早期版本已经有了十分可观的进步。同时他也略微介绍了 Neon 的生成过程,在制作好一位工程师的面部模型后,系统会生成对应的复制化身。这一化身可以运用到不同的人身上,后者亦可通过它来「说话」,以概念来说其实跟去年很火的 deepfake 有不少相似之处。而真正体现 Neon 差异化的是下一个步骤,团队会在此基础上建立一套能独自生成面部表情和嘴部动作的系统。到了这里化身就不再跟人产生联系,而是在靠自己创造新的东西了。

根据官方在发布会上的说法,Neon 的模型可以生成「数以百万计」的面部动画选项。以微笑来举例,当工程师让 Neon 笑的时候,它可以在无数种笑法里自己挑选一种。我们在现场只看到了两种不同的版本,但如果官方所言非虚,那它们显然就只是冰山一角。不光如此,Mistry 还透露在选定了某种笑法以后,Neon 还能在眉毛的上扬高度、凝视的目光等细节上做进一步的微调。老实讲,能让所有这些都即时完成确实是件挺厉害的事情。不过问题是 Neon 现在都只能做到较低的完成度,未来真正能改进多少目前还尚不可知。

那 Neon 现在还能做些什么?在我们看到的 demo 中,有一个化身在对语音指令进行回应时秀出了几句中文、韩语和印地语。但这个「人造人」总体而言还是处于相对静止不变的状态,而且除了在开始回应的时候会有些表情外,大部分时间里眼神背后都透着空洞。当然,「恐怖谷理论」提到的那种感觉肯定会有。尤其是嘴部动作,在 Neon 上常常会出现断齿的情况。

不过要说让活动参与者们最失望的地方,可能还得要算是程度非常有限的人机互动。除了官方重复展示的一些应答反应外,台下的人就只能问一些非常简单的问题。在理解问题的时候 Neon 会进行回答,但从其口中说出的内容,老实讲并不会比那些线上机器人好多少。

在 Core R3 的基础上,实现 Neon 所需的另一部分技术被称作 Spectra。理论上说,这是更具创新性的部分,它会负责 Neon 的学习和情感反应。不意外的是,相较 Core R3 这个部分会更难理解,实际上在 CES 的活动中官方也并未就此进行详细的介绍(据称 Spectra 将会是 Neon 公司今年研发的重点)。

不过就算 Spectra 现在对外人来说还是个谜,Pranav Mistry 在会上还是对 Neon 进行了一番定义,希望借此将自家产品与市面上一般的智能助理区隔开来。按照他的说法,Neon 的意义不是根据你的命令查个信息或是哼个小调。等到 Spectra 平台真正成熟以后,Neon 将可以从经历中学习,并与人进行真正的交流且能够加以理解,这些才是 Mistry 眼中 Neon 的核心所在。

在跟我们沟通时,Mistry 提到自己曾设想过有的老人「并不需要有人在旁边把东西念个他听」,他们「想要真正的对话」,需要能倾诉的对象。但问题是,现阶段 Neon 给人的印象恰恰是 Mistry 最想避免的。说句不好听的,我们看到的就只是一个视觉化的 Alexa 助理罢了(可能还没有那么智慧)。

但不管怎么说,Mistry 还是很希望能听到人们对 Neon 的看法,而且也愿意在初期去探索 Neon 的各种可能性。发布会上蜂拥而来的人群,应该至少能让 STAR Labs 向自己的金主三星交差。但 Neon 要发展,使用情境是不可或缺的。关于这点官方的想法是 Neon 有朝一日会成为银行助理、酒店接待甚至说演员,这次的活动除了记者外,也的确汇聚了不少来自银行、酒店、零售业的代表。

在活动和简单的 demo 结束后,我们对 Neon 想要达成的目标有了个大致的了解。但回顾整个过程,实话说很难让人不觉得失望。在 CES 的展场中,Neon 的展位其实跟三星并不近,但两者间的联系已经足以用来炒作。发布会前给人过高的期望,可能是 Neon 此次赌城之旅的最大败笔。假如在拿出更好的成果前,在想到如何向人更好地解释前,他们可以低调行事,或许一切就会变得完全不一样了吧。
标签: AI, artificial humans, avatars, ces2020, gadgetry, gadgets, gear, neon, neural networks, robots, samsung, services, star lab, tomorrow