您的位置：首页 > 其它

浅谈强化学习二之马尔卡夫决策过程与动态规划

2019-04-21 16:45 573 查看

书接上文，目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法。

先说强化学习的基础，提及强化学习，就要先认知马尔可夫。确认过眼神，大家都是被公式折磨的人，这里就不讲公式了，只是说一下自己的理解，作为大纲方便大家去理解学习，更具体的需要看书去系统学习。

1）马尔可夫性是指系统的下一个状态 $S_{t+1}$ 仅与当前状态 $S_{t}$ 有关，与之前状态无关。

2）马尔可夫过程：假设S是有限的状态集合，P是状态转移矩阵。马尔可夫过程就是指各状态之间相互转换的概率。

3）马尔可夫决策过程：就是指状态转移过程中的决策，这里不单单有转移概率，而且有回报函数R，和折扣引子 $\gamma$ 。

强化学习的目标是找到一个决策序列使得累计回报最大，也就是广义的序贯决策问题，马尔可夫决策是序贯问题的重要解决途径，可分为基于模型的动态规划方法和无模型的强化学习方法。这两者都包含策略迭代算法，值迭代算法和策略搜索算法。

动态规划问题的核心是找到一个最优值函数，一个连续的系列动作称之为策略 $\pi$ ，值函数就是对策略的评价，所有状态-行为值函数的总和即是最终的评价。

1）策略迭代包括策略评估和策略改善：

策略评估算法的输入是需要评估的策略的一些参数：状态转移矩阵，回报函数，折扣因子。最终输出为值函数，在不断迭代过程中，当前状态的值函数可以通过之前状态的值函数得到，而迭代结束的标志为2次迭代结果相同，即值函数不再发生改变。

策略改善的目的就是改变策略，使得模型可以学习到更多的策略。

将上述2个算法合并就是策略迭代算法，其输入为状态转移矩阵，回报函数，折扣因子，初始化值函数，初始化策略。输出为最优策略。在不断迭代过程中，不断去改善策略，并对其进行评价，当无法继续进行策略改善时，停止迭代。

2）值函数迭代：其输入为状态转移矩阵，回报函数，折扣因子，初始化值函数，初始化策略。输出为最优策略。在不断迭代过程中促使值函数达到最大，迭代停止的依据也是2次迭代结果相同，即值函数不再发生改变。

以上2中算法都可能陷入局部最优，毕竟都有贪婪寻优的过程。

3）策略搜索：简单地说就是更改策略，评价策略，使得所得回报最大。这种就近似于暴力搜索了，然而当迭代次数足够大时，往往都能接近全局最优，一般不会陷入局部最优。吹一波XJBS算法，具体是什么，这是一个梗，自行百度。

以上就是我理解的动态规划方法去解决序贯问题的一些看法，虽然我也不喜欢抠公式，但数学是所有理工科的立足之本，需要彻底理解，还是要去钻公式吧。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航