深度强化学习简介
2017-07-29 21:59
232 查看
强化学习(reinforcement learning)是机器学习的一个重要分支,它是用来解决连续决策的问题。强化学习的应用范围十分广泛,几乎包括了所有需要做一系列决策的问题,例如控制电击让它执行特定任务,玩棋牌游戏(AlphaGo)等。它能应用到有序列输出的问题中,即针对一系列变化的环境状态,输出一系列对应的最优的行动,围棋就是典型的例子。
一个强化学习包括三个主要的概念,即环境状态(Environment State),行动(Action)和奖励(Reward),而强化学习的目标就是获得最多的累计奖励。聚类,Autoencoder属于无监督学习,神经网络,贝叶斯分类器,支持向量机这类属于监督学习,而强化学习介于二者之间,它既不像无监督学习那样完全没有学习目标,又不像监督学习那般有非常明确的label,强化学习的目标一般是变化的,不明确的,甚至于可能不存在绝对正确的标签。
强化学习也已经有几十年的历史,直到最近深度学习技术的突破,强化学习才有了较大的进展。Google DeepMind结合强化学习和深度学习,其推出的AlphaGo结合了策略网络(Policy Network),估值网络(Value Network)与蒙特卡洛搜索树,实现了具有超高水平的围棋对战程序,并战胜了世界冠军李世石。这些网络本质上也是神经网络,主要分为策略网络和估值网络两种。深度强化学习模型对环境没有特别强的限制,可以很好的推广到其他环境,因此对强化学习的研究和发展具有非常重大的意义。目前火热的自动驾驶,也是深度强化学习的应用之一。
接下去我们将会使用Tensorflow实现简单的策略网络和估值网络,中间涉及到的算法,我们尽可能地简要的并清晰地表达清楚,敬请期待。
一个强化学习包括三个主要的概念,即环境状态(Environment State),行动(Action)和奖励(Reward),而强化学习的目标就是获得最多的累计奖励。聚类,Autoencoder属于无监督学习,神经网络,贝叶斯分类器,支持向量机这类属于监督学习,而强化学习介于二者之间,它既不像无监督学习那样完全没有学习目标,又不像监督学习那般有非常明确的label,强化学习的目标一般是变化的,不明确的,甚至于可能不存在绝对正确的标签。
强化学习也已经有几十年的历史,直到最近深度学习技术的突破,强化学习才有了较大的进展。Google DeepMind结合强化学习和深度学习,其推出的AlphaGo结合了策略网络(Policy Network),估值网络(Value Network)与蒙特卡洛搜索树,实现了具有超高水平的围棋对战程序,并战胜了世界冠军李世石。这些网络本质上也是神经网络,主要分为策略网络和估值网络两种。深度强化学习模型对环境没有特别强的限制,可以很好的推广到其他环境,因此对强化学习的研究和发展具有非常重大的意义。目前火热的自动驾驶,也是深度强化学习的应用之一。
接下去我们将会使用Tensorflow实现简单的策略网络和估值网络,中间涉及到的算法,我们尽可能地简要的并清晰地表达清楚,敬请期待。
相关文章推荐
- 深度强化学习简介
- 深度学习算法之卷积神经网络简介
- 论文结果难复现?本文教你完美实现深度强化学习算法DQN
- 深度学习入门简介
- 基于遥感背景的深度学习探索——深度学习简介
- 深度强化学习系列(二):强化学习基础
- 深度 | 深度学习漫游指南:强化学习概览
- 【强化学习】基于深度强化学习的平行企业资源计划
- 深度学习简介--PPT
- 深度学习 目标检测算法 SSD 论文简介
- 深度强化学习之Policy Gradient & Actor-Critic Model & A3C
- 3、C语言深度学习笔记--计算机体系结构简介
- 深度汇报系列:(一)深度学习简介
- 深度强化学习(DQN)实现CartPole
- 【算法】神经网络和深度学习简介
- 深度学习算法简介
- 【深度学习介绍系列之二】——深度强化学习:卷积神经网络
- 深度强化学习探索
- 深度学习框架Keras简介
- 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero