增强学习 | AlphaGo背后的秘密
2017-06-10 19:15
274 查看
“敢于尝试,才有突破”
2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此机会,介绍一下AlphaGo背后的秘密——增强学习技术。
增强学习(Reinforcement Learning),也称强化学习,是一种在过程中学习提高机器智能的框架。该框架通常可用马尔可夫决策过程(Markov Decision Process)概念来描述,即假设存在智能体(Agent)在约束环境下执行某动作(Action),动作的执行会改变智能体状态(State),其结果会带来奖赏或惩罚。基于此,智能体通过探索最优策略(Policy)或是最大化长期回报(Reward),进而选择最优的执行动作序列。
增强学习应用的核心是建立智能体模型,包括几个核心概念:
- 状态:智能体内在属性的定量描述
- 动作:使智能体状态迁移的行为
- 策略:状态和动作的映射转移函数,例如状态转移概率等
- 回报:评价智能体执行某动作好坏的价值函数
- 环境:与智能体交互的模型,例如建立的马尔可夫决策模型等
根据问题不同,智能体常常使用一个或多个上述概念进行建模,进而可将增强学习粗略分为基于策略的增强学习、基于值(回报)的增强学习,以及基于模型的增强学习。
基于智能体模型,增强学习以“状态”作为输入,通过可能的“动作”与环境进行交互,以“回报”作为动作的评价,利用该过程中累积的“尝试”数据进行训练,从而学习得到最优的策略函数。
相比于经典的有监督学习方法,增强学习无需标注数据,某种意义上可以看作“延迟标注数据”的监督学习方法。增强学习更关注于在线决策的性能,在难以计算最优解时可给出次优解。
相对于经典的近似动态规划方法,增强学习无需显式的建立马尔可夫决策数学模型,更适合求解计算状态空间更加复杂的问题,即人类操作层次的任务,例如游戏AI、无人驾驶、机器人等。
然而,对于语音识别、NLP、计算机视觉等一些很难定义长期回报的应用,增强学习便难以适用。另一方面,智能体建模常常过于抽象,因此一些增强学习的应用距离实际相差还较大。
回到开头,战胜柯洁的Alpha Go使用的便是最新的深度增强学习技术,即在上述介绍的增强学习概念基础上使用深度神经网络描述值函数、策略或者模型。从这项超越现今人类智能的技术上,我们或许可以得到如下启发:
1. 基于深层卷积神经网络判断围棋棋盘的形势,无需数据特征工程,同时能处理巨大的状态空间;
2. 历史棋手对弈数据有限,但可通过自我博弈显著提升人工智能但策略能力;
3. 增强学习技术并不是万能的,它更适合游戏规则确定的应用。
最后,小虾米还将文章内容总结成了更直观的思维导图,需要的朋友,请在数据小虾米公众号后台回复“增强学习”,即可获取下载地址。
数据科学武林风起云涌,
随数据小虾米共闯江湖~
相关文章推荐
- 深度增强学习(DRL)漫谈 - 从DQN到AlphaGo
- (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)
- 【C++再学习】【07】自增自减操作符背后的秘密
- AlphaGo Zero与增强学习
- 一文读懂AlphaGo背后的强化学习
- 一文读懂AlphaGo背后的强化学习
- 深度增强学习(DRL)漫谈 - 从DQN到AlphaGo
- 一文读懂AlphaGo背后的强化学习:它的背景知识与贝尔曼方程的原理
- 深度增强学习(DRL)漫谈 - 从DQN到AlphaGo
- AlphaGo背后的秘密!解读谷歌全面开放的云TPU | 重磅
- JAVA学习8_@Override标签背后的小秘密
- 腾讯云机器学习平台技术负责人:揭秘深度学习平台DI-X背后的秘密
- 一文读懂AlphaGo背后的强化学习
- 一文读懂AlphaGo背后的强化学习
- Atlas学习手记(24):使用行为增强用户界面(四):Popup Behavior
- abap--一个功能非常全面的增强出口查找工具 (仅供学习)
- 向阿里巴巴学习: 马云“上市”的秘密
- Atlas学习手记(22):使用行为增强用户界面(二):Floating Behavior
- 网页背后秘密 Google如何赚钱的
- Atlas学习手记(24):使用行为增强用户界面(四):Popup Behavior