您的位置：首页 > 其它

深度强化学习简介

2017-07-29 21:59 232 查看

强化学习（reinforcement learning）是机器学习的一个重要分支，它是用来解决连续决策的问题。强化学习的应用范围十分广泛，几乎包括了所有需要做一系列决策的问题，例如控制电击让它执行特定任务，玩棋牌游戏（AlphaGo）等。它能应用到有序列输出的问题中，即针对一系列变化的环境状态，输出一系列对应的最优的行动，围棋就是典型的例子。

一个强化学习包括三个主要的概念，即环境状态（Environment State），行动（Action）和奖励（Reward）,而强化学习的目标就是获得最多的累计奖励。聚类，Autoencoder属于无监督学习，神经网络，贝叶斯分类器，支持向量机这类属于监督学习，而强化学习介于二者之间，它既不像无监督学习那样完全没有学习目标，又不像监督学习那般有非常明确的label,强化学习的目标一般是变化的，不明确的，甚至于可能不存在绝对正确的标签。

强化学习也已经有几十年的历史，直到最近深度学习技术的突破，强化学习才有了较大的进展。Google DeepMind结合强化学习和深度学习，其推出的AlphaGo结合了策略网络（Policy Network），估值网络（Value Network）与蒙特卡洛搜索树，实现了具有超高水平的围棋对战程序，并战胜了世界冠军李世石。这些网络本质上也是神经网络，主要分为策略网络和估值网络两种。深度强化学习模型对环境没有特别强的限制，可以很好的推广到其他环境，因此对强化学习的研究和发展具有非常重大的意义。目前火热的自动驾驶，也是深度强化学习的应用之一。

接下去我们将会使用Tensorflow实现简单的策略网络和估值网络，中间涉及到的算法，我们尽可能地简要的并清晰地表达清楚，敬请期待。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航