强化学习入门之马尔可夫决策过程(MDP)
2017-04-28 08:50
232 查看
马尔可夫决策问题(MDP)是一个四元组的问题,包含环境状态空间X,Agent的动作空间U,环境的迁移函数f,以及奖赏函数p
1.状态X
环境的状态集X定义为一个有穷集合{x1,x2,x3.....xn},其中n表示状态空间大小。
2.动作空间U
Agent的动作集U定义为一个有穷集合{u1,u2,u3.....um},其中m为动作空间的大小。
3,迁移函数及奖赏函数
迁移函数是描述采取相应动作时,当前状态向下一状态的映射关系,并得到相应的奖赏,奖赏即用奖赏函数描述。
1.状态X
环境的状态集X定义为一个有穷集合{x1,x2,x3.....xn},其中n表示状态空间大小。
2.动作空间U
Agent的动作集U定义为一个有穷集合{u1,u2,u3.....um},其中m为动作空间的大小。
3,迁移函数及奖赏函数
迁移函数是描述采取相应动作时,当前状态向下一状态的映射关系,并得到相应的奖赏,奖赏即用奖赏函数描述。
相关文章推荐
- 增强学习(二)----- 马尔可夫决策过程MDP
- 【整理】强化学习与MDP
- 强化学习入门第一讲 马尔科夫决策过程
- 强化学习入门学习记录
- 强化学习系列<1>、强化学习入门简介
- 【转载】近似动态规划与强化学习入门步骤
- 【David Silver强化学习公开课之一】强化学习入门
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 强化学习中的马尔可夫决策过程
- 增强学习(二)----- 马尔可夫决策过程MDP
- 强化学习入门第四讲 时间差分方法
- 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction