您的位置:首页 > 其它

Udacity机器学习工程师学习笔记(四)

2018-02-08 21:59 239 查看
前言

强化学习
Markov决策

强化学习方法

前言

这篇是强化学习的一个非常简略的学习笔记。因为寒假时间比较短,机器学习门类较多,短期不可能面面俱到,近期重点还是放在深度学习、监督学习上。待以后重新深入的学习强化学习时再扩展笔记内容。

强化学习

Reinforcement Learning is one mechanism for doing decision making.

增强学习是制定决策的一个机制

Markov决策

决策中规则是静止的

State S各个状态

Model T(s,a,s’) s当前状态,a执行的动作,s”目标状态。返回的是这个模型的概率。

Action A各个动作

Reward R(s)进入一个状态的奖励 R(s,a) R(s,a,s’)

Policy 策略与状态密切相关,它告诉你在什么状态该做什么动作。

延迟奖励:在几个动作之后达到一个结果时,会给一个奖励,需要反思之前的哪些步骤导致我拿到这个奖励的

效用U(s):一个点之后一组的奖励

奖励R(s):一个点的奖励

折扣:由于计算效用时直接的 reward 相加在无限时间序列中会导致无偏向,而且会产生状态的无限循环。因此在这个效用(Utility) 函数里引入折扣率这一概念,令往后的状态所反馈回来的 reward 乘上这个 discount 系数,这样意味着当下的 reward 比未来反馈的 reward 更重要。

决策的效用意味着当程序遵循了一种决策后,从指定点S开始最后将得到的奖励期望。U(s)是在 s 点起遵循一种决策后,将得到的长期奖励的期望,这恰恰映射了强化学习中
延迟奖励
的意义。

增强学习的目的就是学习一套决策Policy能够最大化奖励



在(3,1)为了避免有可能落入-1,宁可策略设置成向左循环一圈

最优决策:

π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)

贝尔曼(Bellman)方程:

U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)

S点的决策奖励:

R(s)R(s)

S点往后的动作的折扣效用值:

γmaxa∑s′T(s,a,s′)U(s′)γmaxa∑s′T(s,a,s′)U(s′)

强化学习方法



最基础的:学习‘一个点’(S点)

T:转换模型

R:奖励函数

之后:学习一条‘射线’(自S点向后)

U:S点的奖励以及往后经过折扣的奖励

整个策略

pi:最优策略
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息