强化学习之Eligibility Traces
2017-10-16 20:06
162 查看
Eligibility Traces
Eligibility traces是Reinforcement Learning中的一个基本机制。TD(λ)算法中的λ指的就是对Eligibility traces的运用。几乎所有的TD算法,包括Q Learning、Sarsa算法,可以结合Eligibility trace得到一个通用的能更有效学习的方法。可以从两种视角看待Eligibility trace,一种是forward(theoretical)的视角,另一种是backward(mechanical)的视角。顾名思义,forward即为向前看,backward即为向后看。forward的方式因其计算量较大,故在真正实践时都是用的backward的方式实现。
n-Step TD prediction
图上是TD(1-step)…TD(n-step)、蒙特卡罗的backup图。target分别是:
G(1)t=Rt+1+γV(St+1)
G(2)t=Rt+1+γV(St+1)+γ2V(St+2)
...
G(n)t=Rt+1+γV(St+1)+γ2V(St+2)+...+γn−1Rt+n+γnV(St+n)
当episode在n步之前终止,则G(n)t=G(T−t)t=Gt
Forward view of TD(λ)
相关文章推荐
- 强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)
- 强化学习中的马尔可夫决策过程
- 【David Silver强化学习公开课】-6:Value Function Approximation
- 《tensorflow实战》6——强化学习之策略网络
- 强化学习第二版(翻译)第一章 导论 第五节 拓展例子:井字棋 1.5 An Extended Example: Tic-Tac-Toe
- Tensorflow实现策略网络(深度强化学习一)
- 强化学习(RL)原理以及数学模型
- 强化学习笔记
- 强化学习之Q-learning
- “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识
- 强化学习基础 第三讲 蒙特卡罗方法
- 【转载】近似动态规划与强化学习入门步骤
- 谷歌重磅开源强化学习框架Dopamine 吊打OpenAI!
- 重读网峰A8文档---之---Bootloader的加强学习(强化)
- 【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈
- 强化学习中的蒙特卡洛(monte-carlo)算法和时序差分算法
- 强化学习(八)价值函数的近似表示与Deep Q-Learning
- 深度强化学习(Deep Reinforcement Learning)的资源汇总
- 我的WCF学习与强化系列文章
- AI大事件 | 李飞飞接受访谈, TensorFlow: 发布 1.4.0,深度强化学习Bootcamp-视频讲座&实验