Udacity机器学习工程师学习笔记(四)
2018-02-08 21:59
239 查看
前言
强化学习
Markov决策
强化学习方法
增强学习是制定决策的一个机制
State S各个状态
Model T(s,a,s’) s当前状态,a执行的动作,s”目标状态。返回的是这个模型的概率。
Action A各个动作
Reward R(s)进入一个状态的奖励 R(s,a) R(s,a,s’)
Policy 策略与状态密切相关,它告诉你在什么状态该做什么动作。
延迟奖励:在几个动作之后达到一个结果时,会给一个奖励,需要反思之前的哪些步骤导致我拿到这个奖励的
效用U(s):一个点之后一组的奖励
奖励R(s):一个点的奖励
折扣:由于计算效用时直接的 reward 相加在无限时间序列中会导致无偏向,而且会产生状态的无限循环。因此在这个效用(Utility) 函数里引入折扣率这一概念,令往后的状态所反馈回来的 reward 乘上这个 discount 系数,这样意味着当下的 reward 比未来反馈的 reward 更重要。
决策的效用意味着当程序遵循了一种决策后,从指定点S开始最后将得到的奖励期望。U(s)是在 s 点起遵循一种决策后,将得到的长期奖励的期望,这恰恰映射了强化学习中
增强学习的目的就是学习一套决策Policy能够最大化奖励
![](https://ws3.sinaimg.cn/large/006tKfTcgy1fo7mmx26rhj30g20fw3zu.jpg)
在(3,1)为了避免有可能落入-1,宁可策略设置成向左循环一圈
最优决策:
π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)
贝尔曼(Bellman)方程:
U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)
S点的决策奖励:
R(s)R(s)
S点往后的动作的折扣效用值:
γmaxa∑s′T(s,a,s′)U(s′)γmaxa∑s′T(s,a,s′)U(s′)
![](https://ws2.sinaimg.cn/large/006tKfTcgy1fo9au672pgj31ei0qsdk5.jpg)
最基础的:学习‘一个点’(S点)
T:转换模型
R:奖励函数
之后:学习一条‘射线’(自S点向后)
U:S点的奖励以及往后经过折扣的奖励
整个策略
pi:最优策略
强化学习
Markov决策
强化学习方法
前言
这篇是强化学习的一个非常简略的学习笔记。因为寒假时间比较短,机器学习门类较多,短期不可能面面俱到,近期重点还是放在深度学习、监督学习上。待以后重新深入的学习强化学习时再扩展笔记内容。强化学习
Reinforcement Learning is one mechanism for doing decision making.增强学习是制定决策的一个机制
Markov决策
决策中规则是静止的State S各个状态
Model T(s,a,s’) s当前状态,a执行的动作,s”目标状态。返回的是这个模型的概率。
Action A各个动作
Reward R(s)进入一个状态的奖励 R(s,a) R(s,a,s’)
Policy 策略与状态密切相关,它告诉你在什么状态该做什么动作。
延迟奖励:在几个动作之后达到一个结果时,会给一个奖励,需要反思之前的哪些步骤导致我拿到这个奖励的
效用U(s):一个点之后一组的奖励
奖励R(s):一个点的奖励
折扣:由于计算效用时直接的 reward 相加在无限时间序列中会导致无偏向,而且会产生状态的无限循环。因此在这个效用(Utility) 函数里引入折扣率这一概念,令往后的状态所反馈回来的 reward 乘上这个 discount 系数,这样意味着当下的 reward 比未来反馈的 reward 更重要。
决策的效用意味着当程序遵循了一种决策后,从指定点S开始最后将得到的奖励期望。U(s)是在 s 点起遵循一种决策后,将得到的长期奖励的期望,这恰恰映射了强化学习中
延迟奖励的意义。
增强学习的目的就是学习一套决策Policy能够最大化奖励
![](https://ws3.sinaimg.cn/large/006tKfTcgy1fo7mmx26rhj30g20fw3zu.jpg)
在(3,1)为了避免有可能落入-1,宁可策略设置成向左循环一圈
最优决策:
π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)π∗(s)=argmaxa∑s′T(s,a,s′)U(s′)
贝尔曼(Bellman)方程:
U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)U(s)=R(s)+γmaxa∑s′T(s,a,s′)U(s′)
S点的决策奖励:
R(s)R(s)
S点往后的动作的折扣效用值:
γmaxa∑s′T(s,a,s′)U(s′)γmaxa∑s′T(s,a,s′)U(s′)
强化学习方法
![](https://ws2.sinaimg.cn/large/006tKfTcgy1fo9au672pgj31ei0qsdk5.jpg)
最基础的:学习‘一个点’(S点)
T:转换模型
R:奖励函数
之后:学习一条‘射线’(自S点向后)
U:S点的奖励以及往后经过折扣的奖励
整个策略
pi:最优策略
相关文章推荐
- Udacity机器学习工程师学习笔记(五)
- Udacity机器学习工程师学习笔记(三)
- Udacity机器学习工程师学习笔记(一)
- Udacity无人驾驶工程师学习笔记(一)
- 吴恩达机器学习学习笔记--绪论篇
- Andrew NG 机器学习听课笔记(2)——过学习与欠学习,最小二乘的概率意义、logistic回归
- 斯坦福机器学习-week5 学习笔记(1)——神经网络训练BP算法与Gradient checking
- 一、机器学习系统设计笔记之python机器学习入门
- 机器学习【machine learning】学习笔记【1】
- “机器学习” 学习笔记
- 机器学习笔记(十)大型数据集的学习
- Python机器学习笔记——监督学习
- 台湾大学林轩田机器学习技法课程学习笔记8 -- Adaptive Boosting
- 机器学习基础-学习笔记 优化分析(一)
- 加州理工学院公开课:机器学习与数据挖掘课程笔记(一)学习问题
- 台湾大学林轩田机器学习技法课程学习笔记5 -- Kernel Logistic Regression
- Coursera吴恩达机器学习课程 总结笔记及作业代码——第6周有关机器学习的小建议
- 机器学习学习笔记 PRML Chapter 1.1 Introduction
- Linux实践工程师学习笔记五
- Linux实践工程师学习笔记二十二