谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

深度强化学习(RL)技术可用于从视觉输入中学习复杂的任务策略,并已成功应用于经典的Atari2600游戏中。最近在这一领域的研究表明,人工智能甚至可以在挑战性的探索系统(比如蒙特祖马的复仇游戏)上胜过人类。

然而,许多最先进的方法的一个局限性是,它们需要与游戏环境进行大量的交互,通常比人类学习如何更好地玩游戏需要的要多得多。

为什么人类能更有效地学习这些任务?一个可能的假设是,他们可以预测自己行动的影响,从而含蓄地学习一个模型,关于哪一系列行动将导致预期的结果。

这个一般性的想法——建立一个所谓的游戏模型,并用它来学习选择行动的好策略——是基于模型的强化学习(MBRL)的主要前提。

谷歌研究人员最近提出了一种新的MBRL算法,即模拟策略学习(Simple),它使用游戏模型来学习选择行为的质量策略。

Simple比当前最先进的技术更有效,仅使用约100K次与游戏互动(相当于一个人实时玩一个游戏约2小时)即可显示出竞争结果。

研究人员在他们的论文“基于模型的Atari强化学习”中描述了该算法,并将该代码作为Tensor2Tensor开放源代码库的一部分。这个版本包含一个预先训练过的世界模型,可以在一个简单的命令行上运行,并使用类似于Atari的界面播放。

学习一个 SimPLe 世界模型

SimPle

simple背后的思想是交替学习游戏行为的世界模型和在模拟游戏环境中使用无模型强化学习策略。该算法的基本原理在萨顿的“Dyna,一个学习、规划和反应的集成体系结构”中得到了很好的确立,并已应用于许多最新的基于模型的强化学习方法中。

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

∆ SimPLe 的主循环。

(1) agent 开始与真实环境交互。

(2) 收集的观测结果用于更新当前的世界模型。

(3) agent 通过学习世界模型更新策略。

为了训练一个模型来玩Atari游戏,我们首先需要在像素空间生成一个合理的未来版本。换句话说,我们试图通过向游戏输入一系列观察到的帧和命令,例如“左”和“右”,来预测下一帧将是什么样子。在观察空间中训练世界模型的一个重要原因是它实际上是一种自我监控的形式。在我们的例子中,观察(像素)形成了一个密集而丰富的监控信号。

如果这样一个模型(如视频预测器)被成功训练,基本上有一个游戏环境的学习模拟器,它可以用来产生一个训练好策略的轨迹,即选择一系列行动,最大限度地提高经纪人的长期回报。

换言之,我们并不是在实际游戏的操作顺序上训练策略,这在实践和计算中非常密集,而是在世界模型/学习模拟器的序列上训练策略

我们的世界模型是一个前馈卷积网络,它接收四个帧,并预测下一帧和奖励(见上图)。然而,在阿塔里游戏的情况下,如果只考虑四个视角,未来是不确定的。例如,游戏中的暂停时间已经超过四帧。例如,在pong中,当球从帧中掉出时,模型可能无法成功地预测随后的帧。我们使用一种新的视频模型架构来处理这种随机性问题,在这种情况下,我们可以做得更好。

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

∆ 将简单模型应用到功夫大师游戏中,

我们可以看到一个随机性问题的例子。

在动画中,左侧是模型的输出,中间是基础真理,

右侧是两者之间的像素差。

在这里,模型的预测通过产生不同数量的对手

而偏离了真实的游戏。

在每次迭代中,在训练完世界模型后,我们使用这个学习过的模拟器生成推广(即动作、观察和结果的样本序列),以使用近似策略优化(PPO)算法改进游戏策略。

Simple工作的一个重要细节是,卷展栏是从实际数据集帧中采样的。由于预测错误通常会随着时间的推移而增加,使得长期预测非常困难,因此简单的方法只使用中等长度的卷展栏。幸运的是,PPO还可以从其内部价值函数中了解行动和奖励之间的长期影响,因此有限的推广时间足以满足高速公路奖励稀疏游戏等游戏的需要。

SimPLe 的效率:比其他方法高2倍以上

SimPle

成功的一个衡量标准是证明模型是有效的。为此,在与环境进行了100K交互之后,我们评估了我们的策略输出,这相当于一个人玩了大约两个小时的实时游戏。

我们将简单的方法与两种最先进的无模型RL方法进行了比较:彩虹法和po法。在大多数情况下,简单方法的采样效率是其他方法的两倍以上。

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

∆ 和我们SimPle方法取得的得分匹配的话,

两种model-free算法所需的交互次数。

红线表示我们的方法实用的交互次数。

SimPLe 的成功:2款游戏获得最高分

SimPle

简单方法的一个令人兴奋的结果是,对于pong和高速公路,在模拟环境中训练的代理可以获得最高分数。以下是一个代理使用pong游戏的学习模型玩游戏的视频:

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

对于 Freeway、 Pong 和 Breakout 这 3 款游戏,SimPLe 可以生成 50 步以内的近乎完美的像素预测,如下图所示。

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

∆ SimPle可以在Breakout(上图)和Freeway(下图)

生存几乎完美的像素预测。

在每个动画中,左边是模型的输出,中间是 groudtruth,

右边是两者之间的像素差异。

SimPLe 的局限

SimPle

SimPLe 的预测并不总是正确的。最常见的失败是由于世界模型没有准确地捕获或预测小但高度相关的对象。

例如:(1) 在《Atlantis》和《Battlezone》游戏中,子弹是如此之小,以至于它们往往会消失不见;(2)《Private Eye》游戏中, agent 穿越不同的场景,从一个场景传送到另一个场景。我们发现,我们的模型通常很难捕捉到如此巨大的全局变化。

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

∆ 在《Battlezone》中,

我们发现模型很难预测小但高度相关的部分,

比如子弹。

结论

SimPle

基于模型的强化学习方法的主要前景是在交互代价昂贵、速度慢或需要手动标记的环境中,例如许多机器人任务。在这种环境下,学习模拟器可以更好地理解代理的环境,为实现多任务强化学习提供一种新的、更好的、更快的方法。

虽然simple方法还没有达到标准的无模型RL方法的性能,但其效率要高得多。我们希望未来的工作能够进一步提高基于模型的技术的性能。

- - E N D - -

谷歌推出强化学习新算法SimPLe,模拟策略学习效率成倍提升

备注:部分图片源自网络,如有侵权,请联系删除。

相关推荐