您的位置：首页 > 其它

Reinforce learning: Lecture 1 Introduction to Reinforcement Learning 学习笔记

2018-03-07 20:58 597 查看

强化学习是什么？

首先我们先从一个简单的例子开始，大家都知道，当我们刚出生时，对地球的重力规则肯定是一无所知的，但经过摸爬滚打，我们慢慢地学会了走路，这一过程可以简化表示为：

我们

和

地面

经过多次的

交互

，

增强

了我们的能力。

强化学习主要由以下及部分组成：

agent: 机器人

enviroment：环境

action：agent的行为

reward: environment 对 action的反馈

接下来看看他们一个时刻是如何交互的：

agent:

根据当前的状态StSt做出相应的动作，StSt是

可观测

的状态量的

集合

根据reward更新网络参数

Enviroment:

根据agent的action,计算reward

更新StSt

agent 和 enviroment 的交互收敛意味着 reward 达到了饱和状态。

强化学习特点

相比于其他深度网络，强化特性具有如下特性：

属于无监督学习，没有label

模型参数更新仅依靠于reward

reward有延迟

基本概念

policy 策略，agent的行为即状态空间到动作空间的映射

确定过程： ππ(s)

随机过程：ππ(a|s)=P[AtAt=a|StSt=s]

value，价值，衡量当前状态的好坏。

vπ(s)vπ(s) = Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]

γγ 为折扣因子，取值为0~1，表示的是未来几个时刻的reward对当前的状态的影响，也就是网络具有前瞻的功能。

model，对环境规则的表示

预测状态转移概率 Pss′Pss′

预测下一时刻的立即反馈 Rass′Rss′a

exploition && exploration

exploition 利用学到的模型做出选择

exploration 尝试新的选择

prediction && control

prediction 给出一个策略

control 选出最优的策略

learning && plan

learning

环境规则未知

交互进行学习

提升策略

plan

环境已知

直接运用model计算

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航