您的位置：首页 > 其它

强化学习笔记03——有限马尔科夫过程

2017-05-21 09:49 218 查看

在强化学习中，将学习器和决策器称为代理，而与代理交互的事物称为环境。可将问题认为代理与环境的交互。

代理会产生一个与环境对应的策略，用πt表示，πt(a|s)表示在状态为s的情况下采取动作a的概率。

强化学习的目标就是最大化获得的报酬总和。

我们将代理与环境的一次完整交互过程称为一个episode.在一次episode中t时刻获得的期望回报可以写为：

T为最后一步的时间

在考虑衰减因子的情况下，可以写为：

在γ<1的情况下，Gt趋于有限值，且时间越近的报酬对Gt影响越大；当γ=1，即只考虑当前的报酬；当γ=1，即考虑将来的所有回报。

Episodic Tasks是在有限时间内采取只受到有限的报酬影响，相对Continuing Tasks更容易考虑。例如下图：

可将回报写为

Gt=∑k=0T−t−1γkRt+k+1

当T=∞或γ=1回报为连续任务的回报，否则为阶段性任务的回报。

看看下面的公式：

这个公式在计算下一步（状态是s′、奖赏是r）的概率。

并说明这个概率是由至今为止所有的状态S∗，行动A∗和奖赏R∗决定的。

若具有马尔科夫性质，这该公式可以简化为：

即下一步的状态和奖励仅仅与当前的状态和奖励相关。

强化学习的问题满足马尔科夫条件时成为马尔科夫决策过程，一般情况下，都会提出马尔科夫的假设条件。

由此，给定当前状态和奖励即可求得下一状态和奖励，即：

此时由当前的状态和动作决定的期望报酬可以写为：

状态转移概率为：

当前状态下采取的策略都由该概率决定。

当下一状态确定的情况下，当前动作和状态决定的报酬可以写为:

值函数定义如下：

它代表的含义是在当前状态下获得报酬的期望。当采取的动作确定时，又有状态动作值函数：

这两种值函数可以相互转化：

该公式为Bellman equation

两种函数的备份图（backup diagrams）如下：

强化学习的目标现在转变为最优化值函数即可，即：

或者

两者关系：

最优状态价值迭代方法:

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航