深度强化学习中的NAF算法-连续控制(对DQN的改进)
2017-06-20 17:13
489 查看
DQN算法以及之前的种种改进都是面向离散的action的,DQN算法没有办法面向连续的action,因为Q值更新的时候要用到求最大的action。
本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。
基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。
P为正
上式是A的矩阵表示,也就是一个二次型。其中x是状态,u是动作,mu是神经网络的输出动作。
那么令
,也就是
即
后面十分复杂, 还是直接看别人的文章吧
https://zhuanlan.zhihu.com/p/21609472?refer=intelligentunit
不过要解释下u 和 μ [不过我还没看懂]
本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。
基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。
P为正
上式是A的矩阵表示,也就是一个二次型。其中x是状态,u是动作,mu是神经网络的输出动作。
那么令
,也就是
即
后面十分复杂, 还是直接看别人的文章吧
https://zhuanlan.zhihu.com/p/21609472?refer=intelligentunit
不过要解释下u 和 μ [不过我还没看懂]
相关文章推荐
- 深度强化学习——连续动作控制DDPG、NAF
- 深度强化学习——连续动作控制DDPG、NAF
- 深度强化学习中的DQN系列算法
- 详解Nervana最新开源深度强化学习库Coach,支持DQN、DDQN等十多种算法|附开源代码
- 论文结果难复现?本文教你完美实现深度强化学习算法DQN
- 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
- 一文读懂 深度强化学习算法 A3C (Actor-Critic Algorithm)
- DeepMind提出强化学习新算法,教智能体从零学控制
- 重磅 | 详解深度强化学习,搭建DQN详细指南(附论文)
- 深度强化学习控制移动机器人
- DeepMind最新论文提出「Rainbow」,将深度强化学习组合改进
- 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
- 深度学习基础模型算法原理及编程实现--04.改进神经网络的方法
- 深度增强学习(DQN)的各种改进(一)
- 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
- DeepMind最新论文提出「Rainbow」,将深度强化学习组合改进
- 强化学习(七)时序差分离线控制算法Q-Learning
- DeepMind提出强化学习新算法,教智能体从零学控制
- 深度强化学习——DQN
- 深度强化学习 ( DQN ) 初探