您的位置:首页 > 其它

深度强化学习中的NAF算法-连续控制(对DQN的改进)

2017-06-20 17:13 489 查看
DQN算法以及之前的种种改进都是面向离散的action的,DQN算法没有办法面向连续的action,因为Q值更新的时候要用到求最大的action。

本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。

基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。


P为正





上式是A的矩阵表示,也就是一个二次型。其中x是状态,u是动作,mu是神经网络的输出动作。

那么令

,也就是







后面十分复杂, 还是直接看别人的文章吧
https://zhuanlan.zhihu.com/p/21609472?refer=intelligentunit
不过要解释下u 和 μ [不过我还没看懂]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: