您的位置:首页 > 其它

模式识别(Pattern Recognition)学习笔记(十五)--机器学习的范化能力(推广能力)

2016-05-25 14:20 274 查看
如有错误还请指正,并望海涵。。谢谢。。

模式识别是一种基于数据的机器学习,学习的目的不仅是要对训练样本正确分类,而且能对测试样本正确分类,这种能力叫做推广能力或范化能力。

如何评估一个学习机器的推广能力呢?

设某一样本x,其真实所属类别标签为y,用判别函数f(x,w)来估计y,估计过程中带来的损失为L(y,f(x,w)),则在某个w下对所有训练样本的决策损失为:


称作经验风险;

但其实我们真正关心的是测试样本在某个w下的风险:


称作期望风险;


是所有可能出现的样本及其类别标签的联合概率分布模型。

但是啊,这样的估计就一定保证可靠准确么?显然不行,于是《统计学习理论的本质》一书的作者Vapnik在他的书中给予了解答,他指出,有限样本下,经验风险与期望风险是有差别的,后者可能大于前者,但不管怎样,两者之间总是满足一个规律:



上面不等式右边第二项

是一个关键项,叫做置信范围,与h成正比,与样本数量成反比,这里的h很重要,它就是著名的叫做VC维的东西,反映了机器的复杂性程度。

同时,透过这个规律,我们得到一个重要结论:在训练误差相同的情况下,机器的VC维越低,期望风险跟经验风险的差别就越小,机器的推广能力也就越好。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: