这个变态级难度的小游戏,只为证明:人类的聪明没那么简单

1,978 阅读8分钟
原文链接: mp.weixin.qq.com
夏乙 岳排槐 发自 凹非寺量子位 出品 | 公众号 QbitAI

先别说话。

给自己几分钟的时间,玩一下这个游戏,看看是否能顺利通关。几分钟就好,别为难自己。因为普通人通关平均需要20分钟。

游戏地址:https://high-level-4.herokuapp.com/experiment

推荐在PC端打开,手机端玩不了。如果不在电脑前,可以看看我们试玩的动图:

这是什么鬼?简直有点变态级的难度。

从某种程度上说,你在体验AI打游戏的感觉。

最近几年,大家一方面赞叹AI自行学会了玩打砖块等雅达利游戏,而且达到甚至超过了人类玩家的平均水平。

另一方面大家也质疑说,人类看一眼就能上手的游戏,AI却需要学习非常久的时间。为什么机器和人类之间的学习效率差这么多?

加州大学伯克利分校有一组科学家,就正在研究这个问题。

区别可能在于:人类带着一大堆从现实世界中得来的先验知识(prior knowledge)进入游戏,大大提高了决策效率。

什么意思?

还是基于开头让大家试玩的小游戏,让我们跟随伯克利的研究人员们,一起来感受下。

定量分析

来,开始实验。

先看看游戏原始的样子。

即便你不玩游戏,也能看出来,玩家应该躲避粉色的怪物、地刺路障,然后通过跳跃和爬梯子,拿到右上角的钥匙,接着打开左上角的大门。

如果你想试玩,地址在:https://dry-anchorage-61733.herokuapp.com/experiment

实验表明,人类很快就能上手这个游戏。平均完成时间1.8分钟,平均死亡次数3.3,游戏路径探索达3011种。

好,接下来加大难度。

去掉语义

梯子的形状,就是它的语义。人类看到梯子的形状,就能联想到可以攀爬。语义的重要性几何?实验方法很简单,去掉游戏中各种物体的细节,只用统一的色块来表现。

整个游戏就变成下面的样子。

在这种游戏中,人类完成游戏的平均时间增加到4.3分钟,死亡次数增加到11.1次,游戏路径探索达7205种。

试玩地址在此:https://boiling-retreat-38802.herokuapp.com/experiment

你有没有觉得其他玩家弱爆了?其实你忽略了一点。由于文章的表述结构,你先玩了正常版的游戏,但如果你并不知道游戏的原始设定,就能感觉出来遮蔽语义信息的游戏有多难。

因为在原始游戏中,钥匙和大门都可见。人类自然能想到先获取钥匙,再去开门。在遮蔽语义的版本中,玩家无从获知这种信息。

120位参与者中,只有42位在抵达“大门”(蓝色方块)之前,先取得了“钥匙”(橙色方块)。而且与原始游戏相比,玩家获取“钥匙”后抵达“大门”的时间更长。

这个结果表明,在没有语义的情况下,人类无法推断奖励结构,从而显著增加了探索的时间。

为了进一步量化语义的重要性,接下来这个实验不是简单的遮蔽,而是改变了语义。

游戏中粉色的怪物和地刺路障,替换成有正面含义的金币和冰淇淋;而梯子、钥匙和大门,分别被替换成有负面含义的火焰、地刺路障和粉色怪物。

这样一来,参与实验的玩家花了更长时间来过关。平均耗时6.1分钟,死亡次数13.7次,游戏路径探索达9400种。这个结果表明,语义翻转比遮蔽更具迷惑性。

混淆物体

虽然上述遮蔽之后,游戏里的物体都没有传达语义,但它们与背景截然不同。人类很容易推断这些引人注意的物体是子目标,展开比随机搜索更有效的行动。

为了测试这一点,小游戏的迷惑性进一步升级。平台上每个空间位置,都使用了不同的色块填充,然而大多数都是毫无作用的色块。代表实际物体的色块,位置和之前相同。当然,如果你是第一次玩这个游戏,这次绝对要懵逼一下了。

游戏画面如图。

试玩地址:https://high-level-1.herokuapp.com/experiment

实验结果:人类玩家平均通关时间是原来的四倍,达到7.7分钟;死亡次数达到20.2;游戏路径探索达12232种。找到钥匙与打开门之间的耗时进一步增加。

抹平功能可视性

到目前为止的种种“折腾”,已经说明推断出游戏的基本奖励结构,并不是一件易事。不过整个游戏仍然对人类玩家有利。游戏画面中还是能很清楚的看到,各个平台的位置,以及平台之间的相互连接,黑色背景出卖了这一切。

怎么办?

抹平功能可视性的一种方法,就是用随机纹理填充空白的区域。这些纹理与用于渲染梯子和平台的纹理相似。再强调一下,这次实验中各种物体的语义清晰可见。

试玩地址:https://fierce-sierra-47669.herokuapp.com/experiment

实验结果:人类平均通关时间4.7分钟,死亡次数10.7,游戏路径探索达7031种。这个结果与遮蔽语义时相比,差异不大。可以认为,可视性与语义同等重要。

一旦人类玩家意识到,可以站在或者攀爬特定的纹理,就很容易通过相似性识别其他的平台和梯子。看起来相同的事物,人类会认为具有相同的性质。

接下来继续提升难度。

这次每个平台和梯子的纹理全都不同了。人类再也无法用相似性展开推断。

试玩地址:https://high-level-3.herokuapp.com/experiment

这一次,人类平均通关时间7.6分钟,死亡次数14.8,游戏路径探索达11715种。结果表明,视觉相似性是人类在游戏中第二类重要的知识。

改变交互

以上,都是与视觉相关的研究。在这个游戏中,玩家还得知道如何与不同的物体交互。例如遇到粉色的怪物可以跳过去,遇到梯子可以按上键⬆️往上爬。但是,深度强化学习控制的智能体Agent并没有这种先验知识,必须一点点摸索如何与物体交互。

为了测试这种先验知识的重要性,一个新的游戏版本被创建了。我们先不说到底哪里有了改动,你可以自己试试看。

试玩地址:https://calm-ocean-56541.herokuapp.com/experiment

如上面动图所示,单纯按上键是没办法爬梯子的,在按住上键的同时,还得交替反复按下左键和右键。

与原版游戏相比,这个小改动将平均游戏时间延长到3.6分钟,死亡次数6,游戏路径探索达5942次。

终极挑战

最后,综合上述种种,就产生了开头提到了变态级难度的小游戏。

人类完成这个小游戏的平均时间增加到20分钟,死亡次数达40,各种游戏路径探索的次数提高了9倍。

这个游戏实在是太难了,玩家放弃的比例非常高。

但这还不是最难的,其实伯克利的研究人员还搞出一个更难的版本。在那个版本里,重力方向做了翻转,按键的响应也做了随机的映射。

即便是玩过无数次的研究人员,也很难完成这个版本。

而且,他们也没有放出这个版本的试玩地址。(如果哪位老师自己探索出来了,希望留言给我们)

当然还有一个重力方向旋转90°的版本,可以挑战一下。

地址:https://tranquil-earth-53211.herokuapp.com/experiment

讨论

这篇论文的实验结果显示,强化学习算法再强,如果想像人类一样高效完成奖励稀疏的任务,还要从人类的认知中学习很多东西。关于物体的先验知识,就在打游戏这个奖励稀疏的任务上帮了人类的大忙。

不过,有强大的先验也不一定总是好事,有时候会限制探索范围,以后的研究也应该注意在某些环境中,对探索少加约束。

另外,人类对于游戏的先验知识其实远不止这篇论文所探讨的“物体”,人们在打游戏时还会假设游戏有目标,右键上键通常是往前走等等。这些先验,也都很值得探索。

研究人员最后根据实验,对先验知识的分类和重要性进行了排序。如下图所示:

这项研究的论文Investigating Human Priors for Playing Video Games发表在ICLR 2018 Workshop上。

论文一作Rachit Dubey是伯克利计算认知科学实验室的博士,其他作者也都来自伯克利,包括计算机系的博士生Pulkit Agrawal和Deepak Pathak,以及一作和三作的导师:计算认知科学实验室主任Tom Griffiths和Alexei Efros。

视频讲解

关于这篇研究论文,如果你有兴趣,还可以看看这段讲解视频。