机器学习方法篇(23)------增强学习入门
2018-03-04 17:34
267 查看
● 每周一言
别让梦想的附属品喧宾夺主。导语
在小斗去年五月份写的 AlphaGo技术剖析:揭开围棋大脑的神秘面纱 这篇介绍AlphaGo的文章中讲到,AlphaGo之所以能战胜人类顶尖的围棋手,主要是 增强策略网络 的功劳。而增强策略网络的核心技术,便是增强学习。那么,增强学习到底是什么?增强学习
增强学习(Reinforcement Learning),又名强化学习,和监督学习、无监督学习一样,也是机器学习的一个分支。不过,和监督学习、无监督学习相比,增强学习不一定需要大量的训练数据,而更像是一种从零开始通过“左右互搏”的方式提高模型能力的一种学习方式。其主要有以下四个特点:
1. 没有标签数据、只有奖励信号;
2. 奖励信号不一定实时反馈,有时甚至延迟较大;
3. 时间序列是一个重要因素;
4. 当前行为影响后续行为。
下面讲讲增强学习的几个主要概念:
时间序列元素 每一个时刻t都包含三个元素:Ot、At、Rt。Ot表示对当前t时刻环境的观察;At表示对当前观测所做出的一个行为;Rt表示t-1时刻行为所带来的奖励,是一个标量,也是增强学习的优化目标。
个体和环境 在t时刻,个体对于环境有一个观察评估Ot,然后做出一个行为At,并从环境得到一个奖励信号Rt+1;而环境则在t时刻接收个体的动作At,更新环境信息,同时使个体得到下一时刻的观测Ot+1,并给个体一个奖励信号Rt+1。
历史和状态 历史是观测、行为、奖励的序列,状态是用于决定将来的已有信息,是关于历史的一个函数:St = f(Ht)。状态又分为个体状态、环境状态和信息状态。
个体一般由以下三个组成部分中的一个或多个组成:
策略函数 决定个体行为的方式,是状态到行为的映射。
价值函数 对未来奖励的一种预测,用于评价当前状态的好坏程度。
模型 个体对环境的建模。模型一般需要解决两个问题:一是状态转化概率,即预测未来可能状态的发生概率;二是预测未来的即时奖励。
增强学习的学习过程可以比作成一种试错学习,个体一方面需要从与环境的交互中发现一个好策略,另一方面又不至于在试错过程中损失太多奖励。
增强学习广泛应用于直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等方面。
以上便是增强学习的入门讲解,敬请期待下节内容。
结语
感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白!相关文章推荐
- 围观窗体与组件01 - 零基础入门学习Delphi23
- 23. iPhone上面的现实增强(Augmented Reality )入门教程
- 干货 | 算法工程师入门第二期——穆黎森讲增强学习(一)
- 干货 | 算法工程师入门第二期——穆黎森讲增强学习(一) 本文作者:大牛讲堂 编辑:刘芳平 2017-07-19 11:38 导语:地平线大牛讲堂算法工程师入门第二期来啦!本期地平线资深算法工程师、增
- 增强学习 比较好的入门文章
- 增强学习的基础与入门
- 干货 | 算法工程师入门第二期——穆黎森讲增强学习(二)
- spring学习笔记(23)基于tx/aop配置切面增强事务
- 数组01 - 零基础入门学习C语言23
- Silverlight入门学习(23)
- 数组01 - 零基础入门学习C语言23
- linux学习入门23——linux系統常用命令(linuxcast.net)(日期、文件查看(head,tail等)、查看硬件信息、关机重启、归档压缩及查找命令)
- 零基础入门学习Python(23)--递归:这帮小兔崽子
- [机器学习入门] 李宏毅机器学习笔记-37 (Deep Reinforcement Learning;深度增强学习入门)
- 增强学习入门之Q-Learning
- Atlas学习手记(23):使用行为增强用户界面(三):Hover Behavior
- [BX]和loop指令01 - 零基础入门学习汇编语言23
- DQN 从入门到放弃1 DQN与增强学习
- 深度增强学习入门笔记(二)
- [BX]和loop指令01 - 零基础入门学习汇编语言23