深度强化学习简介
2017-07-29 21:59
246 查看
强化学习(reinforcement learning)是机器学习的一个重要分支,它是用来解决连续决策的问题。强化学习的应用范围十分广泛,几乎包括了所有需要做一系列决策的问题,例如控制电击让它执行特定任务,玩棋牌游戏(AlphaGo)等。它能应用到有序列输出的问题中,即针对一系列变化的环境状态,输出一系列对应的最优的行动,围棋就是典型的例子。
一个强化学习包括三个主要的概念,即环境状态(Environment State),行动(Action)和奖励(Reward),而强化学习的目标就是获得最多的累计奖励。聚类,Autoencoder属于无监督学习,神经网络,贝叶斯分类器,支持向量机这类属于监督学习,而强化学习介于二者之间,它既不像无监督学习那样完全没有学习目标,又不像监督学习那般有非常明确的label,强化学习的目标一般是变化的,不明确的,甚至于可能不存在绝对正确的标签。
强化学习也已经有几十年的历史,直到最近深度学习技术的突破,强化学习才有了较大的进展。Google DeepMind结合强化学习和深度学习,其推出的AlphaGo结合了策略网络(Policy Network),估值网络(Value Network)与蒙特卡洛搜索树,实现了具有超高水平的围棋对战程序,并战胜了世界冠军李世石。这些网络本质上也是神经网络,主要分为策略网络和估值网络两种。深度强化学习模型对环境没有特别强的限制,可以很好的推广到其他环境,因此对强化学习的研究和发展具有非常重大的意义。目前火热的自动驾驶,也是深度强化学习的应用之一。
接下去我们将会使用Tensorflow实现简单的策略网络和估值网络,中间涉及到的算法,我们尽可能地简要的并清晰地表达清楚,敬请期待。
一个强化学习包括三个主要的概念,即环境状态(Environment State),行动(Action)和奖励(Reward),而强化学习的目标就是获得最多的累计奖励。聚类,Autoencoder属于无监督学习,神经网络,贝叶斯分类器,支持向量机这类属于监督学习,而强化学习介于二者之间,它既不像无监督学习那样完全没有学习目标,又不像监督学习那般有非常明确的label,强化学习的目标一般是变化的,不明确的,甚至于可能不存在绝对正确的标签。
强化学习也已经有几十年的历史,直到最近深度学习技术的突破,强化学习才有了较大的进展。Google DeepMind结合强化学习和深度学习,其推出的AlphaGo结合了策略网络(Policy Network),估值网络(Value Network)与蒙特卡洛搜索树,实现了具有超高水平的围棋对战程序,并战胜了世界冠军李世石。这些网络本质上也是神经网络,主要分为策略网络和估值网络两种。深度强化学习模型对环境没有特别强的限制,可以很好的推广到其他环境,因此对强化学习的研究和发展具有非常重大的意义。目前火热的自动驾驶,也是深度强化学习的应用之一。
接下去我们将会使用Tensorflow实现简单的策略网络和估值网络,中间涉及到的算法,我们尽可能地简要的并清晰地表达清楚,敬请期待。
相关文章推荐
- 深度强化学习简介
- CS294--深度强化学习
- 【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究
- 【强化学习】基于深度强化学习的平行企业资源计划
- 第1章 深度学习简介
- 深度强化学习——连续动作控制DDPG、NAF
- 微软邓力:深度强化学习在聊天机器人领域的应用
- 深度学习Deep Learning 相关库简介
- 深度学习中的验证集和超参数简介
- [机器学习入门] 深度学习简介,GPU计算的原理,分布式机器学习原理
- 深度强化学习中DDPG算法
- 强化学习基础学习系列之强化学习简介
- 深度强化学习控制移动机器人
- 重磅 | 详解深度强化学习,搭建DQN详细指南(附论文)
- 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero
- 深度强化学习的 18 个关键问题 | PaperDaily #30
- 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
- 【强化学习】新加坡国立大学张戎:深度学习与强化学习
- 深度强化学习的 18 个关键问题 | PaperDaily #30
- 深度学习DeepLearning.ai系列课程学习总结:1. 深度学习简介