您的位置:首页 > 其它

部分可观测Markov决策过程的上界近似算法

2014-10-28 21:46 204 查看
1. MDP近似与QMDP近似

MDP近似公式:



MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.



2. FastInformed Bound Method近似



如下图所示:



此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值,而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略,而实际中每一步只能运用一个策略,故FIB的值要大于精确算法。

也就是说,解决FIB近似问题相当于解决一个含有|S||A||o|个状态,|A|个行动的MDP。

3. 比较:

V(精确)<V(FIB)<V(QMDP)<V(MDP)

总而言之,信息越多,做的越好,函数值越大。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: