您的位置:首页 > 其它

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)

2016-03-08 20:21 871 查看
刚看完了lecture16,借马尔科夫决策过程入门强化学习,趁热打铁把知识梳理一下(以Andrew的课为线索):

lecture 16 马尔科夫决策过程

今天开始ML新的一章,讲强化学习。

agenda

-MDPs

-Value Function

-Value iteration

-Policy iteration

后面两个都是解决强化学习的算法。

几个强化学习的例子:

斯坦福直升机 ,因为不好给定训练数据,所以只能使用奖惩信号。

计算机下棋;

强化学习就像训狗一样;

强化学习的难点(相较于监督学习)在于它是一个渐进决策过程(sequential decision making),而不是像监督学习一次性的决策。比如说下棋,第60步输了,那么credit 分配又是一个问题,因为不知道之前的60步到底哪一步错了,怎么奖惩。

给出正式的定义:

Reinforcement learning problems model the worlds using something called the MDP or the Markov Decision Process formalism. (马氏决策过程)

马尔科夫决策过程是一个五元组,偷个懒。。。



这里说一下第四个元素γ \gamma,后面会见到,它的作用就是用来调节,,怎么说,折现率吧,意思是今天的一块钱和一年后的块钱在价值上是不能等同的,随着马尔科夫链的延伸,越到后面reward的影响就越小,所以好的决策应该尽早做,不能输在起跑线上。。。个人理解。

那么根据刚才的五元组,怎么构造一个马尔科夫决策过程呢?



好,以上就把马尔科夫决策过程大致是怎样的搞明白了。

在具体求解Markov优化问题前,我们需要在学习几个定义:policy,value function… 都比较容易理解。

下面第一句:强化学习的目的就是求解MDP的最优策略(policy)!



下面说到的Bellman equations确实妙!让不同states的value function关联了。

Bellman equations主要是后面会讲到的value iteration(两种求解MDP的算法之一)中会用得着。



下面再把opitmal value function 和相应的optimal policy定义完就完事了(可以开始探讨求解算法了)。

opitmal value function



相应的optimal policy



终于等到求解算法了!

两种求解有限类MDP的算法:value iteration和policy iteration

具体的文字这里就不截图了,只把算法给出,详细的可以看讲义notes12

1.value iteration



蓝字说的同步异步和批/随机梯度下降差不多意思。

2.policy iteration



由于以上两种算法都是收敛的,于是课上有同学问了:算法convergence那么这是一个凸优化问题吗?
Andrew:算法确实收敛到全局最优解,但是证明过程比较长(并不麻烦)且与凸优化不同。
我:证明过程到底是啥,EM吗???


下面这段话说了,两种算法难分伯仲。



课程的最后讲learning a model for a MDP(省略部分文字)





That’s all !
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: