您的位置：首页 > 其它

Udacity机器学习工程师学习笔记(四)

2018-02-08 21:59 239 查看

前言

这篇是强化学习的一个非常简略的学习笔记。因为寒假时间比较短，机器学习门类较多，短期不可能面面俱到，近期重点还是放在深度学习、监督学习上。待以后重新深入的学习强化学习时再扩展笔记内容。

强化学习

Reinforcement Learning is one mechanism for doing decision making.

增强学习是制定决策的一个机制

Markov决策

决策中规则是静止的

State S各个状态

Model T(s,a,s’) s当前状态,a执行的动作,s”目标状态。返回的是这个模型的概率。

Action A各个动作

Reward R(s)进入一个状态的奖励 R(s,a) R(s,a,s’)

Policy 策略与状态密切相关,它告诉你在什么状态该做什么动作。

延迟奖励：在几个动作之后达到一个结果时，会给一个奖励，需要反思之前的哪些步骤导致我拿到这个奖励的

效用U(s)：一个点之后一组的奖励

奖励R(s)：一个点的奖励

折扣：由于计算效用时直接的 reward 相加在无限时间序列中会导致无偏向，而且会产生状态的无限循环。因此在这个效用(Utility) 函数里引入折扣率这一概念，令往后的状态所反馈回来的 reward 乘上这个 discount 系数，这样意味着当下的 reward 比未来反馈的 reward 更重要。

决策的效用意味着当程序遵循了一种决策后，从指定点S开始最后将得到的奖励期望。U(s)是在 s 点起遵循一种决策后，将得到的长期奖励的期望，这恰恰映射了强化学习中

延迟奖励

的意义。

增强学习的目的就是学习一套决策Policy能够最大化奖励

在(3,1)为了避免有可能落入-1，宁可策略设置成向左循环一圈

最优决策：

π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)

贝尔曼（Bellman）方程：

U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)

S点的决策奖励：

R(s)R(s)

S点往后的动作的折扣效用值：

γmaxa∑s′T(s,a,s′)U(s′)γmaxa∑s′T(s,a,s′)U(s′)

强化学习方法

最基础的：学习‘一个点’（S点）

T：转换模型

R：奖励函数

之后：学习一条‘射线’（自S点向后）

U：S点的奖励以及往后经过折扣的奖励

整个策略

pi：最优策略

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习强化学习 Udacity 学习笔记

相关文章推荐

新的分享

章节导航