强化学习笔记03——有限马尔科夫过程
2017-05-21 09:49
218 查看
代理环境交互
在强化学习中,将学习器和决策器称为代理,而与代理交互的事物称为环境。可将问题认为代理与环境的交互。代理会产生一个与环境对应的策略,用πt表示,πt(a|s)表示在状态为s的情况下采取动作a的概率。
目标与报酬
强化学习的目标就是最大化获得的报酬总和。我们将代理与环境的一次完整交互过程称为一个episode.在一次episode中t时刻获得的期望回报可以写为:
T为最后一步的时间
在考虑衰减因子的情况下,可以写为:
在γ<1的情况下,Gt趋于有限值,且时间越近的报酬对Gt影响越大;当γ=1,即只考虑当前的报酬;当γ=1,即考虑将来的所有回报。
阶段性任务(Episodic Tasks)和连续任务(Continuing Tasks)
Episodic Tasks是在有限时间内采取只受到有限的报酬影响,相对Continuing Tasks更容易考虑。例如下图:可将回报写为
Gt=∑k=0T−t−1γkRt+k+1
当T=∞或γ=1回报为连续任务的回报,否则为阶段性任务的回报。
马尔科夫性质
看看下面的公式:这个公式在计算下一步(状态是s′、奖赏是r)的概率。
并说明这个概率是由至今为止所有的状态S∗,行动A∗和奖赏R∗决定的。
若具有马尔科夫性质,这该公式可以简化为:
即下一步的状态和奖励仅仅与当前的状态和奖励相关。
马尔科夫决策过程
强化学习的问题满足马尔科夫条件时成为马尔科夫决策过程,一般情况下,都会提出马尔科夫的假设条件。由此,给定当前状态和奖励即可求得下一状态和奖励,即:
此时由当前的状态和动作决定的期望报酬可以写为:
状态转移概率为:
当前状态下采取的策略都由该概率决定。
当下一状态确定的情况下,当前动作和状态决定的报酬可以写为:
值函数
值函数定义如下:它代表的含义是在当前状态下获得报酬的期望。当采取的动作确定时,又有状态动作值函数:
这两种值函数可以相互转化:
该公式为Bellman equation
两种函数的备份图(backup diagrams)如下:
最优化值函数
强化学习的目标现在转变为最优化值函数即可,即:或者
两者关系:
最优状态价值迭代方法:
相关文章推荐
- 强化学习读书笔记 - 03 - 有限马尔科夫决策过程
- TGE学习笔记03 - 透明纹理
- NetTiers学习笔记03---NetTiers.v2.0至v2.1.0.560累计增加的一些内容
- JSP学习笔记-03-Servlet和JSP的关系
- 《Javascript高级程序设计》(第2版)学习笔记03--对象
- (学习笔记_2011_07_03)__反汇编__一重for循环
- Effective C# 学习笔记(二十一)为类型定义有限的职责
- 【JAVA学习笔记】03 分支语句
- JAVA高级视频_IO输入与输出02、03 RandomAccessFile 学习笔记
- 【JAVA学习笔记】03 分支语句
- php学习笔记-03
- Dotnet B/S 架构学习笔记_03(2008-11-18)
- jQuery学习笔记 03
- FreeBSD学习笔记03-默认搜索路径
- Learn Objective‐C,学习笔记03 类别(实现多重继承的方法)
- LUA 学习笔记 03
- 《HTML & XHTML权威指南》的学习笔记03 -- 第五章.分隔线,图像,多媒体
- (学习笔记_2011_07_03)i++和++i进行条件判断的时候的反汇编.........
- 学习笔记9—JAVA高级视频03_图形用户界面GUI
- Mars Android视频学习笔记——03_03/04_用户定位