Dyna - 结合模型学习和直接强化学习
2017-06-12 15:24
369 查看
model_free的算法可以和模型学习结合。
方法是向环境(environment)传递了S,A后获得反馈S_,R,保存这个关系,记为
S_,R = Model(S, A),如此多次就学习了model的一部分,就像是有了对外界环境的想象,如此就可以在不接触外界环境的情况下进行学习。
Q-learning和模型学习结合就是Tabular Dyna-Q方法:
Initialize Q(s,a)Q(s,a) and Model(s,a)∀s∈S and a∈A(s)Model(s,a)∀s∈S and a∈A(s)
Do forever(for each episode):
(a) S←S← current (nonterminal) state
(b) A←ϵ−greedy(S,Q)A←ϵ−greedy(S,Q)
(c) Execute action AA; observe resultant reward, RR, and state, S′S′
(d) Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]
(e) Model(S,A)←R,S′Model(S,A)←R,S′ (assuming deterministic environment)
(f) Repeat n times:
S←S← random previously observed state
A←A← random action previously taken in SS
R,S′←Model(S,A)R,S′←Model(S,A)
Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]
方法是向环境(environment)传递了S,A后获得反馈S_,R,保存这个关系,记为
S_,R = Model(S, A),如此多次就学习了model的一部分,就像是有了对外界环境的想象,如此就可以在不接触外界环境的情况下进行学习。
Q-learning和模型学习结合就是Tabular Dyna-Q方法:
Initialize Q(s,a)Q(s,a) and Model(s,a)∀s∈S and a∈A(s)Model(s,a)∀s∈S and a∈A(s)
Do forever(for each episode):
(a) S←S← current (nonterminal) state
(b) A←ϵ−greedy(S,Q)A←ϵ−greedy(S,Q)
(c) Execute action AA; observe resultant reward, RR, and state, S′S′
(d) Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]
(e) Model(S,A)←R,S′Model(S,A)←R,S′ (assuming deterministic environment)
(f) Repeat n times:
S←S← random previously observed state
A←A← random action previously taken in SS
R,S′←Model(S,A)R,S′←Model(S,A)
Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]
相关文章推荐
- 【原】KMeans与深度学习模型结合提高聚类效果
- 强化学习-无模型控制(下)
- 【强化学习笔记】3.基于模型的动态规划方法
- 强化学习(五)---基于模型的强化学习实战
- 漫谈基于模型的强化学习方法 PILCO - Probabilistic Inference for Learning Control
- lecture10-模型的结合与全贝叶斯学习
- 强化学习(RL)原理以及数学模型
- 强化学习系列之二:模型相关的强化学习
- c++学习笔记 内存四区 函数调用模型 指针强化
- c++学习笔记 内存四区 函数调用模型 指针强化
- 强化学习基础 第二讲 基于模型的动态规划算法
- GAN︱生成模型学习笔记(运行机制、NLP结合难点、应用案例、相关Paper)
- 强化学习基础 第二讲 基于模型的动态规划算法
- 强化学习-无模型控制(上)
- 深度学习-CAFFE利用CIFAR10网络模型训练自己的图像数据获得模型-3结合caffe中的CIFAR10修改相关配置文件并训练
- 强化学习基础学习系列之model-free/planning/model-base/dyna方法总结
- 【强化学习笔记】5.无模型的强化学习方法-时间差分算法
- 强化学习之五:基于模型的强化学习(Model-based RL)
- 【强化学习笔记】4.无模型的强化学习方法-蒙特卡罗算法
- GAN︱生成模型学习笔记(运行机制、NLP结合难点、应用案例、相关Paper)