您的位置:首页 > 其它

深度强化学习简介

2017-07-29 21:59 232 查看
      强化学习(reinforcement learning)是机器学习的一个重要分支,它是用来解决连续决策的问题。强化学习的应用范围十分广泛,几乎包括了所有需要做一系列决策的问题,例如控制电击让它执行特定任务,玩棋牌游戏(AlphaGo)等。它能应用到有序列输出的问题中,即针对一系列变化的环境状态,输出一系列对应的最优的行动,围棋就是典型的例子。

      一个强化学习包括三个主要的概念,即环境状态(Environment State),行动(Action)和奖励(Reward),而强化学习的目标就是获得最多的累计奖励。聚类,Autoencoder属于无监督学习,神经网络,贝叶斯分类器,支持向量机这类属于监督学习,而强化学习介于二者之间,它既不像无监督学习那样完全没有学习目标,又不像监督学习那般有非常明确的label,强化学习的目标一般是变化的,不明确的,甚至于可能不存在绝对正确的标签。

      强化学习也已经有几十年的历史,直到最近深度学习技术的突破,强化学习才有了较大的进展。Google DeepMind结合强化学习和深度学习,其推出的AlphaGo结合了策略网络(Policy Network),估值网络(Value Network)与蒙特卡洛搜索树,实现了具有超高水平的围棋对战程序,并战胜了世界冠军李世石。这些网络本质上也是神经网络,主要分为策略网络和估值网络两种。深度强化学习模型对环境没有特别强的限制,可以很好的推广到其他环境,因此对强化学习的研究和发展具有非常重大的意义。目前火热的自动驾驶,也是深度强化学习的应用之一。

      接下去我们将会使用Tensorflow实现简单的策略网络和估值网络,中间涉及到的算法,我们尽可能地简要的并清晰地表达清楚,敬请期待。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: