李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

wilbertzhou

2020-05-31

效果不太好

稀疏奖励中的好奇心

curiosity模型中，在原来DQN的基础上，建立了Network1，用于在??_??和??_??的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。

引入了Network2，将输入的两个状态进行特征提取，通过Network2得到的?? ?_??，以?? _??作为实际目标进行训练。从而能够避免虚假的状态变化了？另外，Feature Ext和Network2是同一个网络的不同结构部分么，为什么说训练Feature Ext，又说Network2？

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

层次形式强化学习

上层单位提供愿景，下层单位执行愿景，下层无法执行，则交给下下层。最终执行的内容返回给上层。上层修改愿景？

https://arxiv.org/abs/1805.08180

行为克隆

行为克隆的一个问题是，不是所有的行为都是有用并应该进行学习的。

另外的状态不匹配性？

逆向强化学习

逆向强化学习中，首先是专家在环境中进行交互生成了数据1，与Actor在环境中交互生成了数据2。

将数据1和数据2进行处理，处理过程中使得数据1的奖励大于数据2，得到奖励函数R。使用该奖励函数R，训练Actor。最终得到一个比较好的Actor。

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

逆向强化学习与GAN网络很相似。GAN通过鉴别器判断输出的好坏，通过G获得一个新的图像输出？

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

强化学习

安科网

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

wilbertzhou

稀疏奖励中的好奇心

层次形式强化学习

行为克隆

逆向强化学习

wilbertzhou

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

无监督、弱监督、半监督、强化、多示例学习是什么

wilbertzhou