您的位置:首页 > 其它

斯坦福大学公开课 :机器学习课程(Andrew Ng)——15、无监督学习:Reinforcement Learning and Control

2015-01-06 19:29 405 查看
在之前的讨论中,我们总是给定一个样本x,然后给出或者不给出label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向;比如,象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法,但在局势复杂时,仍然要让机器向后面多考虑几步后才能决定走哪一步比较好,因此需要更好的决策方法。
对于这种控制决策问题,有这么一种解决思路。我们设计一个回报函数(reward function),如果learning agent(如上面的四足机器人、象棋AI程序)在决定一步后,获得了较好的结果,那么我们给agent一些正回报,得到较差的结果,那么回报函数为负。比如,四足机器人,如果他向前走了一步(接近目标),那么回报函数为正,后退为负。如果我们能够对每一步进行评价,得到相应的回报函数,那么就好办了,我们只需要找到一条回报值最大的路径(每步的回报之和最大),就认为是最佳的路径。

增强学习在很多领域已经获得成功应用,比如自动直升机,机器人控制,手机网络路由,市场决策,工业控制,高效网页索引等。

增强学习的一些重要概念有:马尔科夫决策过程、值迭代和策略迭代法、Q-learning、、、

1)马尔科夫决策过程

MDP的动态过程如下:某个agent的初始状态为

,然后从A中挑选一个动作

执行,执行后,agent按

概率随机转移到了下一个

状态,

。然后再执行一个动作

,就转移到了

,接下来再执行

…,我们可以用下面的图表示整个过程





我们定义经过上面转移路径后,得到的回报函数之和如下





如果R只和S有关,那么上式可以写作





我们的目标是选择一组最佳的action,使得全部的回报加权和期望最大。





从上式可以发现,在t时刻的回报值被打了

的折扣,是一个逐步衰减的过程,越靠后的状态对回报和影响越小。最大化期望值也就是要将大的

尽量放到前面,小的尽量放到后面。



关于值迭代和策略迭代法,不打算写了,其实比较简单,参考:http://www.cnblogs.com/jerrylead/archive/2011/05/13/2045309.html

比较经典的教材还有:《Machine Learning(Tom M. Mitchell)》第13章Reinforcement Learning。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐