您的位置:首页 > 其它

强化学习基础四--Policy Gradient 理论推导

2017-11-23 13:28 621 查看
本文原文见我的知乎主页:https://www.zhihu.com/people/ikerpeng/

















参考:

David Silver,Tutorial: Deep Reinforcement Learning,2016.

Pieter Abbeel,Policy Optimization,2017.

Hodo van Hasselt,Deep reinforcement Learning,2017.

R. Sutton, RL:An introduction 2nd,2017
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息