最新機器人與 A.I.文章

Image credit: DeepMind

AlphaGo 已经进化到不用人类输入,可以自学成才了

AlphaGo Zero 是「从零开始」的「史上最强棋手」。

Sanji Feng
2017 年 10 月 19 日, 下午 06:48
DeepMind
其实在第二代的「Master」完胜了当今棋坛最强的柯洁之后,AlphaGo 的对手就已经不再是人类了。但令人没想到的是,赛后短短几个月它竟然又完成了一次进化。全新的 AlphaGo Zero 毫无意外地超越了前面两代,不过比结果更重要的是,这次它「从零开始」用了一套完全不同的训练方法。过去的 AlphaGo 都是在与无数人类业余、职业棋手的对决中慢慢成熟,但 Zero 自诞生起就彻底摒弃了人类输入,然后靠着自我学习、自我对弈孤身成长为了 DeepMind 口中的「史上最强棋手」。

那这个「最强」到底有多强?看看下面这串数字你估计就会有一个概念了。Zero 在对阵打败了李世乭的那一版 AlphaGo 之前,只花了区区三天的训练时间,就以 100 比 0 的绝对优势取胜。然后在经过了 40 天的内部机器对战以后,它又以 89 比 11 的悬殊差距轻取战胜了柯洁的「Master」版本。在得知新 AlphaGo 的战绩之后,柯洁更是发出了这样的感叹:「一个纯净、纯粹自我学习的 AlphaGo 是最强的,对于 AlphaGo 的自我进步来讲,人类太多余了。」


这里看《自然》发的字幕版,秒拍无法插入

在 DeepMind 发布于《自然》期刊上的论文中,还提到了许多其它技术上的细节。但按照公司 CEO Demis Hassabis 的说法,其中相当关键的一点,就是为 AlphaGo Zero 去掉了「人类认知的桎梏」。在这样的基础上,甚至可以说 DeepMind 距离消除「对大量数据训练依赖」这一 AI 领域的难题,又向前迈出了坚实的一步。

当然啰,这套新的方法在策略类的棋盘游戏外是否适用还有待更多的考察,但 DeepMind 相信它未来应该会有更为广阔的用途。「这样的技术可以被运用在诸如蛋白质折叠、降低能耗、寻找新材料等结构性的问题之上,其潜在的突破很有可能会为人类社会带来非常积极的影响。」他们在官方博客中这么写道。