您的位置:首页 > 其它

Dyna - 结合模型学习和直接强化学习

2017-06-12 15:24 369 查看
model_free的算法可以和模型学习结合。

方法是向环境(environment)传递了S,A后获得反馈S_,R,保存这个关系,记为

S_,R = Model(S, A),如此多次就学习了model的一部分,就像是有了对外界环境的想象,如此就可以在不接触外界环境的情况下进行学习。

Q-learning和模型学习结合就是Tabular Dyna-Q方法:

Initialize Q(s,a)Q(s,a) and Model(s,a)∀s∈S and a∈A(s)Model(s,a)∀s∈S and a∈A(s)

Do forever(for each episode):

  (a) S←S← current (nonterminal) state

  (b) A←ϵ−greedy(S,Q)A←ϵ−greedy(S,Q)

  (c) Execute action AA; observe resultant reward, RR, and state, S′S′

  (d) Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]

  (e) Model(S,A)←R,S′Model(S,A)←R,S′ (assuming deterministic environment)

  (f) Repeat n times:

   S←S← random previously observed state

   A←A← random action previously taken in SS

   R,S′←Model(S,A)R,S′←Model(S,A)

   Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: