您的位置:首页 > 其它

Reinforce learning: Lecture 1 Introduction to Reinforcement Learning 学习笔记

2018-03-07 20:58 597 查看

强化学习是什么?

首先我们先从一个简单的例子开始,大家都知道,当我们刚出生时,对地球的重力规则肯定是一无所知的,但经过摸爬滚打,我们慢慢地学会了走路,这一过程可以简化表示为:
我们
地面
经过多次的
交互
增强
了我们的能力。

强化学习主要由以下及部分组成:

agent: 机器人

enviroment:环境

action:agent的行为

reward: environment 对 action的反馈



接下来看看他们一个时刻是如何交互的:

agent:

根据当前的状态StSt做出相应的动作,StSt是
可观测
的状态量的
集合


根据reward更新网络参数

Enviroment:

根据agent的action,计算reward

更新StSt

agent 和 enviroment 的交互收敛 意味着 reward 达到了饱和状态。

强化学习特点

相比于其他深度网络,强化特性具有如下特性:

属于无监督学习,没有label

模型参数更新仅依靠于reward

reward有延迟

基本概念

policy 策略,agent的行为即状态空间到动作空间的映射

确定过程: ππ(s)

随机过程:ππ(a|s)=P[AtAt=a|StSt=s]

value,价值,衡量当前状态的好坏。

vπ(s)vπ(s) = Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]

γγ 为折扣因子,取值为0~1,表示的是未来几个时刻的reward对当前的状态的影响,也就是网络具有前瞻的功能。

model,对环境规则的表示

预测状态转移概率 Pss′Pss′

预测下一时刻的立即反馈 Rass′Rss′a

exploition && exploration

exploition 利用学到的模型做出选择

exploration 尝试新的选择

prediction && control

prediction 给出一个策略

control 选出最优的策略

learning && plan

learning

环境规则未知

交互进行学习

提升策略

plan

环境已知

直接运用model计算
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐