马尔科夫决策过程
2018-01-25 22:52
344 查看
1 基本模型
马尔科夫决策过程的基本模型是一个四元组<S,A,T,R><S,A,T,R>状态空间SS:指智能体所有可能相处的状态的集合
行为空间AA:指智能体在所有状态上可能采取的行为集合
状态转移函数T:S×A×S′→[0,1]T:S×A×S′→[0,1],T(s,a,s′)T(s,a,s′)表示在状态ss采取动作aa转移到状态s′s′的概率,有∑s′ST(s,a,s′)=1∑s′ST(s,a,s′)=1
收益函数R:S×A→RR:S×A→R,在这儿一般用R(s,a)R(s,a)表示在状态ss采取动作aa得到的立即收益。
2 模型的意义
马尔科夫决策过程模型的意义在于对智能体所处的每一个状态ss给出一个最优的行为,在这里将之称为策略,用π(s)π(s)表示。这个行为要以智能体获得的长期报酬的期望最大化为目标,即maxE[∑tRt(st,at)]maxE[∑tRt(st,at)]。RtRt表示智能体在第tt步得到的报酬。为了保证模型收敛可解,这里通常会引入一个折扣因子γ,0<γ<1γ,0<γ<1,这时长期报酬就可写为maxE[∑tγtRt(st,at)]maxE[∑tγtRt(st,at)]。定义智能体的值函数Vπ:S→RVπ:S→R为在状态ss,采用策略ππ的期望报酬
Vπ(s)=E[∑∞t=0γtRt(st,at)](1)(1)Vπ(s)=E[∑t=0∞γtRt(st,at)]
对公式1利用全概率公式递归展开可得
Vπ(s)=R(s,π(s))+γ∑s′∈STπ(s)(s,s′)Vπ(s)(s′)(2)(2)Vπ(s)=R(s,π(s))+γ∑s′∈STπ(s)(s,s′)Vπ(s)(s′)
为了更好的描述策略,定义一个行为值函数的概念Qπ:S×A→RQπ:S×A→R,表示在状态ss采取行为aa,其他状态继续采用策略ππ所得到的报酬,计算方法如下,
Qπ(s,a)=R(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)(3)(3)Qπ(s,a)=R(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)
为了得到最大的报酬,有
π(s)=argmaxa∈AQπ(s,a)(4)(4)π(s)=argmaxa∈AQπ(s,a)
即
π(s)=argmaxa∈AR(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)(5)(5)π(s)=argmaxa∈AR(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)
结合公式2可得,
Vπ(s)=maxa∈AR(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)(6)(6)Vπ(s)=maxa∈AR(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)
3 模型的求解
值迭代算法流程如下
对所有的s∈Ss∈S 随机初始化V(s)=0V(s)=0
根据公式6,对V(s)V(s)进行更新,直至收敛
与线性方程组的迭代解法类似,值迭代流程的第二步可以采用同步和异步的不同方式进行更新。
策略迭代
对所有的s∈Ss∈S,随机初始化策略π(s)π(s)
根据公式6对V(s)进行更新,根据公式5,对策略进行更新
相关文章推荐
- MDP:马尔科夫决策过程(二)
- 强化学习笔记1--马尔科夫决策过程
- 深度增强学习David Silver(二)——马尔科夫决策过程MDP
- 强化学习笔记—马尔科夫决策过程(MDP)
- 强化学习(二):马尔科夫决策过程(Markov decision process)
- 关于马尔科夫决策过程的一点不理解的地方
- 马尔科夫决策过程(Markov Decision Process)
- MDP:马尔科夫决策过程(三)
- 强化学习(二)马尔科夫决策过程(MDP)
- 强化学习(三)---马尔科夫决策过程
- 强化学习(二)——MDP:马尔科夫决策过程
- 人工智障学习笔记——强化学习(1)马尔科夫决策过程
- 【CS229 lecture17】连续马尔科夫决策过程
- 增强学习-马尔科夫决策过程
- 【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)
- 强化学习入门第一讲 马尔科夫决策过程
- 《Reinforcement Learning》 读书笔记 3:有限马尔科夫决策过程
- 增强学习(一)——马尔科夫决策过程(MDP)
- 马尔科夫决策过程(MDP)
- David Silver强化学习公开课之二 马尔科夫决策过程