最新遊戲相關文章

Image credit:

DeepMind AI「AlphaStar」对战《星际争霸 II》职业高手,取得十胜一败成绩

胜过 TLO 与 MaNa 各五场,但最后输了一场给 MaNa。

Andy Yang
2019 年 1 月 25 日, 傍晚 09:30

在基本上辗压了围棋界之后,DeepMind 团队将目光放到了自由度更高的即时战略游戏,并且最近都在忙着调校一个新的「AlphaStar」AI,来挑战《星际争霸 II》的职业高手。在上月底连续两组五局对战中,AlphaStar 先全胜了 TLO,接着又在第二组对战中全胜了 MaNa。唯有最后一场直播的对战,才让 MaNa 好歹为人类争了一口气,赢回唯一一场胜利。

不过,事情当然不像表面那么简单。AlphaStar 相对于人类,其实是隐藏优势的。这时候有在玩 RTS 的读者大概会猜是反应速度、或是手速,但其实都不是 -- AlphaStar 的「手速」(也就是每分钟动作数)其实平均只有 277 APM,比起星海职业选手的平均 559 APM 要少了不止一点,再加上 AI 从发现新状况,到计划出合理的回应,中间大约要 0.35 秒的时间,这也比一般职业高手差。在这部份,AlphaStar 完全是靠更有效率的操作,与更经济的决策来弥补的。AlphaStar 真正「作弊」之处,在于它可以同时看到整个地图,当然战争迷雾还是存在,只是 AlphaStar 不像人类对手一样,要一直不停地在地图来回跳动查看,自然也不容易被偷袭啰。


AlphaStar 的训练和其他类似的 AI 系统一样,都是先由观看无数的人类对战视频,来产生一个模型,再由这模型产生一大堆类似但不完全相同的「分身」,再让这些分身下去对打,直到决胜出最厉害的五个 AI「选手」为止。在一个月的虚拟对战中,AlphaStar 的诸多分身份进行了等同于现实时间 200 年的对战时长,最后选出的五个代表每个都有不同的游戏风格,并且是 DeepMind 认为最有获胜机会的。就是这五个代表被推上去与 TLO 和 MaNa 各对战了一次(避免风格重复被看破,同时 MaNa 面对的 AlphaStar 更有经验一点),并取得了十战全胜的成绩。



至于最后一场呢?原来这是个「实验版」的 AlphaStar,拿掉了上面提到的那个「隐藏优势」,让模型必需和人类一样时不时地检查一下地图的各个角落,自然也就有错漏重要信息的可能。虽然也有着一个礼拜的训练时间,但 DeepMind 团队未能让它先与人类选手「切搓」一下,因此与 MaNa 在直播上的对战是它与人类面对面的初战,可惜输给了对方。

当然,对我们一般人来说,就是真正具备高度挑战性的游戏 AI 已经不再是个梦想,即使是即时战略这样没有明确的胜败因素、没有完整的信息、而且需要长远的概念的游戏,AI 都有打败人类的潜力了。有兴趣的话 DeepMind 自己的博客上有 AlphaStar 与两位人类的对战视频,可以去看看 AlphaStar 采取的各种奇怪的战略啰。

article