深度策略梯度算法是真正的策略梯度算法吗?

近期深度强化学习取得了很多成功,但也存在局限性:缺乏稳定性、可复现性差。来自 MIT 和 Two Sigma 的研究者重新检验了深度强化学习方法的概念基础,即目前深度强化学习的实践多大程度上反映了其概念基础框架的原则?该研究重点探讨深度策略梯度方法。

深度策略梯度算法是真正的策略梯度算法吗?

深度强化学习是现代机器学习最为人所知的成就,它造就了 AlphaGO 这样广为人知的应用。对很多人来说,该框架展示了机器学习对现实世界的影响力。但是,不像当前的深度(监督)学习框架,深度强化学习工具包尚未支持足够的工程稳定性。的确,近期的研究发现当前最优的深度强化学习算法对超参数选择过于敏感,缺乏稳定性,且可复现性差。

这表明或许需要重新检验深度强化学习方法的概念基础,准确来说,该研究要解决的重要问题是:目前深度强化学习的实践多大程度上反映了其概念基础框架的原则?

该论文重点研究深度策略梯度方法,这是一种广泛使用的深度强化学习算法。研究目标是探索这些方法的当前最优实现多大程度上体现了通用策略梯度框架的关键基元。

该论文首先检验重要的深度策略梯度方法近端策略优化(PPO)。研究发现 PPO 的性能严重依赖于非核心算法的优化,这表明 PPO 的实际成功可能无法用其理论框架来解释。

这一观察促使研究者进一步检查策略梯度算法及其与底层框架之间的关系。研究者对这些算法在实践中展示的关键强化学习基元进行了细致地检查。具体而言,研究了:

  • 梯度估计(Gradient Estimation):研究发现,即使智能体的奖励有所提升,用于更新参数的梯度估计通常与真实梯度不相关。
  • 价值预测(Value Prediction):实验表明价值网络能够训练并成功解决监督学习任务,但无法拟合真正的价值函数。此外,将价值网络作为基线函数仅能稍微降低梯度估计的方差(但能够显著提升智能体的性能)。
  • 最优化 Landscape:研究发现最优化 Landscape 通常无法反映其真正奖励的潜在 Landscape,后者在相关的采样方案(sample regime)中通常表现不佳。
  • 置信域:研究发现深度策略梯度算法有时会与置信域产生理论冲突。实际上,在近端策略优化中,这些冲突来源于算法设计的基础问题。

研究者认为以上问题以及我们对相关理论知识的缺乏是深度强化学习脆弱性和低复现性的主要原因。这表明构建可信赖的深度强化学习算法要求抛弃之前以基准为中心的评估方法,以便多角度地理解这些算法的非直观行为。

论文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?

深度策略梯度算法是真正的策略梯度算法吗?

论文链接:https://arxiv.org/pdf/1811.02553.pdf

摘要:本文研究了深度策略梯度算法对促进其发展的底层概念框架的反映程度。我们基于该框架的关键要素对当前最优方法进行了精细分析,这些方法包括梯度估计、价值预测、最优化 landscape 和置信域分析。我们发现,从这个角度来看,深度策略梯度算法的行为通常偏离其概念框架的预测。我们的分析开启了巩固深度策略梯度算法基础的第一步,尤其是,我们可能需要抛弃目前以基准为中心的评估方法。

检查深度策略梯度算法的基元

1. 梯度估计的质量

策略梯度方法的核心前提是恰当目标函数上的随机梯度上升带来优秀的策略。具体来说,这些算法使用(代理)奖励函数的梯度作为基元:

深度策略梯度算法是真正的策略梯度算法吗?

这些方法的理论背后的底层假设是,我们能够获取对梯度的合理估计,即我们能够使用有限样本(通常大约 103 个)的经验平均值准确估计上面的期望项。因此研究者对实践中该假设的有效性很感兴趣。

我们计算出的梯度估计准确度如何?为了解决该问题,研究者使用了评估估计质量最自然的度量标准:经验方差(empirical variance)和梯度估计向「真正」梯度的收敛情况。

深度策略梯度算法是真正的策略梯度算法吗?

图 2

图 2:梯度估计的经验方差在 MuJoCo Humanoid 任务中可作为状态-动作对关于数量的函数,x 轴为状态-动作对,y 轴是梯度估计的经验方差。

深度策略梯度算法是真正的策略梯度算法吗?

图 3

图 3:MuJoCo Humanoid 任务中梯度估计向「真正」期望梯度的收敛情况。

2. 价值预测

深度策略梯度算法是真正的策略梯度算法吗?

图 4

图 4:对于训练用于解决 MuJoCo Walker2d-v2 任务的智能体,在留出状态-动作对上的价值预测质量(度量指标为平均相对误差 MRE)。

3. 探索最优化 landscape

策略梯度算法的另一个基础假设是对策略参数使用一阶更新可以带来性能更好的策略。因此接下来我们就来看该假设的有效性。

深度策略梯度算法是真正的策略梯度算法吗?

图 6:在 Humanoid-v2 MuJoCo 任务上,TRPO 的真正奖励函数 Landscape。

深度策略梯度算法是真正的策略梯度算法吗?

图 8:在 Humanoid-v2 MuJoCo 任务上,PPO 的真正和代理奖励函数 Landscape。

4. 置信域的优化

深度策略梯度算法是真正的策略梯度算法吗?

图 9

图 9:对于训练用于解决 MuJoCo Humanoid 任务的智能体,每一步的平均奖励、最大速率(maximum ratio)、平均 KL 和 maximum versus mean KL 情况。

为深度强化学习奠定更好的基础

相关推荐