6 小时学会玩迷宫，AI 机器人不仅打破人类记录，顺便把作弊也学了？

2023-12-27
来源:36氪

拿真实世界的数据训练 AI 机器人 6 个小时后，它可以达到什么样的水平？

为了进一步研究 AI 在现实世界中的潜力，来自苏黎世联邦理工学院的研究人员做了一项实验，其创造了一款名为 CyberRunner 的 AI 机器人，用 6 个小时教它玩一款主流的迷宫游戏，最终看它的表现。

结果显示，AI 远比我们想象的要更为聪明。它不仅快速学会了玩法，还打破了由 1988 年以来的选手 Lars Göran Danielsson 在 2022 年创下的 15.41 秒的世界纪录，实现 14.48 秒的战绩。万万没想到的是，它甚至还把作弊的技能也给学会了。

人类 vs AI 机器人，玩迷宫游戏

之所以选择迷宫游戏作为测试目标，是因为研究人员觉得该游戏成本低、可用性广且具有挑战性。

正如下图所示，迷宫游戏的器材是一个由许多小墙壁和洞组成的迷宫。

对于人类玩家而言，可以旋转两边的旋钮，倾斜游戏盘来引导一个钢球从起始点滚落到终点。在此过程中，玩家必须防止球从任何一个洞里掉下去，否则视为游戏失败。

在实操过程中，研究人员表示，从经验来看，人类需要大量的练习才能精通这款游戏。因为玩迷宫不仅需要运用物理技巧，还需要精细的运动技能和空间推理能力。此外，迷宫设备也为游戏带来了一些挑战，包括球和墙璧/地板之间的粘滞效应、迷宫的表面的不规则性，以及控制旋钮和迷宫板之间的非线性耦合的存在。

为了测试 AI 的能力，研究人员对迷宫游戏设备进行了改良，为这款 CyberRunner 的机器人配备了两个电机（充当它的手）、一个摄像头（它的眼睛）和一台计算机（它的大脑），让它可以像人一样玩游戏。

它可以操纵设备边上的两个旋钮，控制游戏盘倾斜引导钢球开始滚动，摄像头实时追踪路径，然后计算机将其记录下来，不断训练，探索最佳路径。

基于此，研究人员还发布了一篇《Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning》论文（https://arxiv.org/pdf/2312.09906.pdf），详细地分享了整个测试过程。

测试方法

就像人类一样，CyberRunner 利用模型的强化学习中的最新进展，通过经验来学习。这使得人工智能能够通过预测不同行为结果来做出决策并选择潜在的成功行为。

在硬件准备就绪之后，研究人员开始分三步测试与训练 CyberRunner 的能力：

1. 利用递归策略，让当前的决策取决于先前的决策和状态。

这种策略应避免两种情况。首先，球不能掉到任何一个洞里；第二，该策略可能不会通过跳过迷宫的某些部分来作弊。当这两种情况中的任何一种发生时，对应的状态被设置为一个终端状态，其未来奖励的总和被设置为 0。由于递归策略是以所有过去的观测和控制动作为条件的，因此可以仅从位置信息中恢复线性和角速度。

2. 然后通过摄像头，提取图像中相关观察和奖励信息。

3. 使用基于模型的强化学习和数据增强以一种高效利用样本的方式来优化学习目标。

在实验环节中，研究人员还利用垂直方向的轨迹以及迷宫的水平翻转视图，产生迷宫的四个不同版本。让 CyberRunner 从不同维度更好地学习。

简单来看，在玩游戏的过程中，通过一台俯视迷宫的摄像头捕捉观察结果，CyberRunner 观察迷宫并根据其表现获得奖励。它会记住所收集的经验，利用这些经验，基于模型的强化学习算法学习系统的行为，根据对游戏的理解，识别哪些策略和行为更有前途。基于这些知识，它能够识别出最有前途的行为。

因此，机器人使用两个电机（它的“手”）来玩游戏的方式不断改进。重要的是，机器人不会停止玩游戏来学习，算法与机器人同时运行。结果，机器人在每一次运行中都变得更好。

接受了 6 个多小时训练，CyberRunner 成功率达 76%

在论文中，研究人员主要通过两种方法验证所提出方法的有效性：

(i)在物理系统上进行单次训练运行，并评估策略的性能；

(ii)使用迷宫的模拟版本进行消融研究。

在真实世界的迷宫上进行策略学习，预算为 100 万个时间步（相当于以 55Hz 的控制速率进行 5.05 小时训练）。在物理系统上进行学习时，每当一个回合结束时，研究人员会手动将球放回起始位置。训练过程中每个回合的归一化累积奖励如下图所示。可以看到，策略成功地将球导航到迷宫的终点，仅使用不到 5 小时的收集数据。

此外，通过不断地尝试，平均而言，CyberRunner 成功率达到 76%。可以看到，策略有效地利用墙壁快速改变球的方向。还可以观察到，最终策略将球导航在洞口的附近，以最大化其性能（例如图 7 中的 10 号和 12 号洞附近）。

除此之外，据 TNW 报道，CyberRunner 在参加一个赛事时，打破了由 1988 年以来的选手 Lars Göran Danielsson 在 2022 年创下的15.41 秒的世界纪录。CyberRunner 在 14.48 秒内完成了比赛，比人类纪录保持者快了 6% 以上。

挖掘 AI 的无限潜力

回看过去，Google DeepMind 旗下的 AlphaGo 透过自我对弈数以万计盘进行练习强化，最终在 2016 年 3 月以 4:1 战绩击败顶尖职业棋手李世石，成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序，也自此一战成名。

过去一年间诞生的 ChatGPT、GPT-4、Bard 等 AI 聊天机器人及大模型也经过了大量的数据与时间训练而成。

时下的 CyberRunner 仅用了 6 个小时，利用在基于模型的强化学习方面取得的进展，证明了 AI 可以在身体技能的任务中超越人类。

而且有趣的是，在学习阶段，CyberRunner 甚至发现了游戏中的捷径，学会了不按照数字指引，绕开了很多洞，这促使该次实验的首席研究员 Thomas Bi 和 Raffaello D'Andrea 教授进行干预并引导 AI 避开这些路径，这才有了上文中提及递归策略必须避开的两种情况。

对于这一实验性成果的发布，不少网友认为这一成就不仅突破了 AI 在游戏领域的界限，而且标志着 AI 如何应用于现实世界的物理任务方面向前迈出了一大步。CyberRunner 的成功预示着人工智能可以承担复杂的物理活动的未来，有可能改变各个行业和日常生活。

“我们相信这是现实世界机器学习和人工智能研究的理想测试平台。在 CyberRunner 之前，只有拥有大量预算和定制实验基础设施的组织才能在该领域进行研究。现在，只需不到 200 美元，任何人都可以参与尖端人工智能研究”，D'Andrea 说道，“此外，一旦成千上万的 CyberRunner 进入现实世界，就有可能参与大规模实验，在全球范围内并行进行学习。公民科学的终极”

此外，D'Andrea 教授还计划将项目的硬件和软件全部在 GitHub 上开源，让更多的人了解与学习：https://github.com/thomasbi1/cyberrunner

参考：

https://www.unite.ai/revolutionizing-physical-skills-ai-robot-surpasses-human-ability-in-labyrinth-marble-game/

https://thenextweb.com/news/ai-beats-humans-first-time-physical-skill-game

本文来自微信公众号 “CSDN”（ID:CSDNnews），整理：屠敏，36氪经授权发布。