强化学习A3C与UNREAL算法
2017-09-15 18:10
381 查看
首先再熟悉一下python的参数传递:
对于不可变对象(number,string,tuple)作为参数时,相当于C语言的值传递;
对于可变对象(list,dict)作为参数时,相当于C语言的引用传递。
————————————————————————————————————————————————
A3C算法是Actor Critic算法的并行扩展。
为了训练一对Actor Critic,将其复制多份,复制的每一对各自训练,之后将每一对进行综合,
再然后将综合后的好的结果反馈给每一对复制出来的Actor Critic,一来一回能提高强化学习的学习效率。
首先新建一个公共网络,此公共网络里的参数可以被所有子网络共享。
(每个子网络进行训练,用这些子网络的梯度训练此公共网络的参数,进行一次梯度下降后,
将此公共网络的参数数值赋值给此子网络,然后继续这样的过程)
A3C算法充分利用了并行算法的优势,各个子网络可以训练不同的数据。
A3C与Actor Critic代码实现的最大的不同在于(根据莫烦python的github代码实现):
(1)并行计算下的参数、梯度共享
(2)A3C的Actor输出为表示分布的mu(均值)与sigma(标准差),这里直接根据分布来采样,
而不再是输出一堆概率来根据概率选择了。choose_action时直接sample一个。
————————————————————————————————————————————————
关于unreal算法,其在A3C的基础上增加了一些辅助性的训练。可以参考一个非常好的专栏:
http://mp.weixin.qq.com/s/1RPTloNXZ6K7TFL1leg6qg
对于不可变对象(number,string,tuple)作为参数时,相当于C语言的值传递;
对于可变对象(list,dict)作为参数时,相当于C语言的引用传递。
————————————————————————————————————————————————
A3C算法是Actor Critic算法的并行扩展。
为了训练一对Actor Critic,将其复制多份,复制的每一对各自训练,之后将每一对进行综合,
再然后将综合后的好的结果反馈给每一对复制出来的Actor Critic,一来一回能提高强化学习的学习效率。
首先新建一个公共网络,此公共网络里的参数可以被所有子网络共享。
(每个子网络进行训练,用这些子网络的梯度训练此公共网络的参数,进行一次梯度下降后,
将此公共网络的参数数值赋值给此子网络,然后继续这样的过程)
A3C算法充分利用了并行算法的优势,各个子网络可以训练不同的数据。
A3C与Actor Critic代码实现的最大的不同在于(根据莫烦python的github代码实现):
(1)并行计算下的参数、梯度共享
(2)A3C的Actor输出为表示分布的mu(均值)与sigma(标准差),这里直接根据分布来采样,
而不再是输出一堆概率来根据概率选择了。choose_action时直接sample一个。
————————————————————————————————————————————————
关于unreal算法,其在A3C的基础上增加了一些辅助性的训练。可以参考一个非常好的专栏:
http://mp.weixin.qq.com/s/1RPTloNXZ6K7TFL1leg6qg
相关文章推荐
- 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
- 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
- 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
- 七月算法强化学习 第五课 学习笔记
- 七月算法强化学习 第一课 学习笔记
- 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
- 论文结果难复现?本文教你完美实现深度强化学习算法DQN
- 强化学习(七)时序差分离线控制算法Q-Learning
- 强化学习策略梯度方法之: REINFORCE 算法
- 【强化学习实战】基于gym和tensorflow的强化学习算法实现
- 机器学习总结(lecture 18)算法:强化学习Reinforcement Learning(RL)
- 七月算法强化学习 第四课 学习笔记
- 英特尔Nervana发布强化学习库Coach:支持多种价值与策略优化算法
- 重磅下载!业界首本强化学习应用宝典,阿里核心算法团队联袂打造
- AI 自动研发机器学习系统,DeepMind 让算法学习强化学习
- 七月算法强化学习 第六课 学习笔记
- 七月算法深度学习 第三期 学习笔记-第九节 强化学习与Deep Q-Network
- 强化学习——A3C,GA3C
- DeepMind提出强化学习新算法,教智能体从零学控制
- 七月算法强化学习 第二课 学习笔记