以目前的技术来说,如果你试着教导一个 AI 系统新的语言,通常都需要使用大量的「注释」(机器学习中,由人类为资料加上的额外标签)来为其解释每个单词的意涵,然而搜集罕见语言注释的过程往往旷日费时,加上由于同一字词常拥有不同的解读方式和使用习惯,经如此训练后的 AI,可能仍无法准确反映人们自然说话的方式。而稍早,麻省理工学院针对这样的状况提出了一种新技术,能让 AI 如同小孩子般进行学习,或将能同时突破这类学习速度和内容局限性的关卡。借由研究人员开发出的一种 parser(语法分析器),AI 就能通过观察场景来建立所见所闻之间的关联性,并将之有效转化为相关的语言知识。该技术目前可以让 AI 在观看有字幕的视频后,基于描述内容的准确程度,将字词与特定的物体、动作进行链接,并把可能的意涵转化为数学逻辑的型式,计算出它认为最能代表眼前发生事物的确切意义。由于这项 AI 系统在学习过程的初期,对于画面的内容可能产生大量不同的解释,所以难免会看起来好像对眼前的一切一无所知,但随着它逐步排除各种可能性,就能渐渐看到成果。此外,虽然该系统本身就能自主学习,但如果辅以注释的运用,则可以进一步加快它学习的脚步。

这项技术最重要的特点,无疑是它所带来的灵活性。由于它是通过观察环境来学习,它学习到的不仅仅是语言,更包含了人们实际说话的各种表达方式。麻省理工学院预估,若将搭载这类 AI 技术的机器人放置于人群之中,即便接收到的都是片断的语句和非正式的对话内容,它也能够顺利适应并学习到相关的语言知识。

小孩子般的学习方式比起过往如同土法炼钢的过程,不仅为效率带来了改善,在面对注释相对匮乏的罕见语言时,也可以突破过往的限制,发挥学习的作用。此外,它甚至可以用来帮助科学家理解儿童是如何了解这个世界的。而当前开发团队遇到的最大挑战,就是如何将这项技术从「自观察中学习」进一步扩展至「自互动中学习」,以带来更多的可能性。