部分可观测Markov决策过程的上界近似算法
2014-10-28 21:46
204 查看
1. MDP近似与QMDP近似
MDP近似公式:
MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.
2. FastInformed Bound Method近似
如下图所示:
此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值,而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略,而实际中每一步只能运用一个策略,故FIB的值要大于精确算法。
也就是说,解决FIB近似问题相当于解决一个含有|S||A||o|个状态,|A|个行动的MDP。
3. 比较:
V(精确)<V(FIB)<V(QMDP)<V(MDP)
总而言之,信息越多,做的越好,函数值越大。
MDP近似公式:
MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.
2. FastInformed Bound Method近似
如下图所示:
此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值,而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略,而实际中每一步只能运用一个策略,故FIB的值要大于精确算法。
也就是说,解决FIB近似问题相当于解决一个含有|S||A||o|个状态,|A|个行动的MDP。
3. 比较:
V(精确)<V(FIB)<V(QMDP)<V(MDP)
总而言之,信息越多,做的越好,函数值越大。
相关文章推荐
- 马尔科夫决策过程(Markov Decision Process)
- 马科夫决策过程(Markov Decision Process,MDP)
- 强化学习(二):马尔科夫决策过程(Markov decision process)
- 【操作系统学习 01】MIT xv6操作系统环境配置及编译(详细过程+部分问题解决方法)
- 不能在USB中安装Ghost XP系统或者在Ghost 过程中出现问题的的原因与部分解决方法.
- 神经网络决策过程可视化:AI眼中马云、马化腾、李彦宏谁最有吸引力?
- 强化学习系列之一:马尔科夫决策过程
- socket从userspace到kernel的api执行过程(不含tcp/ip协议栈部分)
- coco2dx-2.2.2 win32启动过程(opengl 和 窗口大小初始化部分) - 学习笔记 1
- Flume-ng生产环境实践(二)flume-ng 测试过程中event丢失部分body数据
- 第四部分 DB2 V7.X 版本SQL存储过程编译配置说明
- 关于马尔科夫决策过程的一点不理解的地方
- linux各部分的初始化过程(待续)
- Cmake如何简化生成过程:第1部分(基本编译系统)
- 工作笔记-存储过程部分
- ROS 学习系列 -- RViz 实时观测机器人建立导航2D封闭空间地图过程 (SLAM)
- MySQL存储过程部分解释
- ionic开发移动app过程中地址选择部分涉及省市县三级联动
- 【CS229 lecture17】连续马尔科夫决策过程