您的位置：首页 > 其它

深度强化学习中的NAF算法-连续控制（对DQN的改进）

2017-06-20 17:13 489 查看

DQN算法以及之前的种种改进都是面向离散的action的，DQN算法没有办法面向连续的action，因为Q值更新的时候要用到求最大的action。

本来DQN主要是输出Q值的，aciton是通过argmax顺便实现的，但是现在NAF需要用神经网络输出了，那么就是同时输出Q 和 a。

基本的idea就是引入了Advantage函数A（s,a），也就是每一个动作在特定状态下的优劣。

$A(a) = -P(a-x)^2$
P为正

$Q(s,a) = A(s,a) + V(s)$

上式是A的矩阵表示，也就是一个二次型。其中x是状态，u是动作，mu是神经网络的输出动作。

那么令
$z = u - \mu$
,也就是

$A = -0.5z^TPz\leq 0$

即

$z^TPz>0$

后面十分复杂，还是直接看别人的文章吧
https://zhuanlan.zhihu.com/p/21609472?refer=intelligentunit
不过要解释下u 和 μ [不过我还没看懂]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航