您的位置：首页 > 其它

【CS229 lecture16】强化学习-马尔科夫决策过程（MDP）

2016-03-08 20:21 871 查看

刚看完了lecture16，借马尔科夫决策过程入门强化学习，趁热打铁把知识梳理一下（以Andrew的课为线索）：

lecture 16 马尔科夫决策过程

今天开始ML新的一章，讲强化学习。

agenda

-MDPs

-Value Function

-Value iteration

-Policy iteration

后面两个都是解决强化学习的算法。

几个强化学习的例子：

斯坦福直升机，因为不好给定训练数据，所以只能使用奖惩信号。

计算机下棋；

强化学习就像训狗一样；

强化学习的难点（相较于监督学习）在于它是一个渐进决策过程（sequential decision making），而不是像监督学习一次性的决策。比如说下棋，第60步输了，那么credit 分配又是一个问题，因为不知道之前的60步到底哪一步错了，怎么奖惩。

给出正式的定义：

Reinforcement learning problems model the worlds using something called the MDP or the Markov Decision Process formalism. （马氏决策过程）

马尔科夫决策过程是一个五元组，偷个懒。。。

这里说一下第四个元素γ \gamma，后面会见到，它的作用就是用来调节，，怎么说，折现率吧，意思是今天的一块钱和一年后的块钱在价值上是不能等同的，随着马尔科夫链的延伸，越到后面reward的影响就越小，所以好的决策应该尽早做，不能输在起跑线上。。。个人理解。

那么根据刚才的五元组，怎么构造一个马尔科夫决策过程呢？

好，以上就把马尔科夫决策过程大致是怎样的搞明白了。

在具体求解Markov优化问题前，我们需要在学习几个定义：policy,value function… 都比较容易理解。

下面第一句：强化学习的目的就是求解MDP的最优策略(policy)!

下面说到的Bellman equations确实妙！让不同states的value function关联了。

Bellman equations主要是后面会讲到的value iteration（两种求解MDP的算法之一）中会用得着。

下面再把opitmal value function 和相应的optimal policy定义完就完事了（可以开始探讨求解算法了）。

opitmal value function

相应的optimal policy

终于等到求解算法了！

两种求解有限类MDP的算法：value iteration和policy iteration

具体的文字这里就不截图了，只把算法给出，详细的可以看讲义notes12

1.value iteration

蓝字说的同步异步和批/随机梯度下降差不多意思。

2.policy iteration

由于以上两种算法都是收敛的，于是课上有同学问了：算法convergence那么这是一个凸优化问题吗？
Andrew:算法确实收敛到全局最优解，但是证明过程比较长（并不麻烦）且与凸优化不同。
我：证明过程到底是啥，EM吗？？？

下面这段话说了，两种算法难分伯仲。

课程的最后讲learning a model for a MDP（省略部分文字）

That’s all !

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航