您的位置：首页 > 其它

部分可观测Markov决策过程的上界近似算法

2014-10-28 21:46 204 查看

1. MDP近似与QMDP近似

MDP近似公式:

MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.

2. FastInformed Bound Method近似

如下图所示:

此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值，而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略，而实际中每一步只能运用一个策略，故FIB的值要大于精确算法。

也就是说，解决FIB近似问题相当于解决一个含有|S||A||o|个状态，|A|个行动的MDP。

3. 比较：

V(精确)<V(FIB)<V(QMDP)<V(MDP)

总而言之，信息越多，做的越好，函数值越大。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航