模式识别(Pattern Recognition)学习笔记(十五)--机器学习的范化能力(推广能力)
2016-05-25 14:20
274 查看
如有错误还请指正,并望海涵。。谢谢。。
模式识别是一种基于数据的机器学习,学习的目的不仅是要对训练样本正确分类,而且能对测试样本正确分类,这种能力叫做推广能力或范化能力。
如何评估一个学习机器的推广能力呢?
设某一样本x,其真实所属类别标签为y,用判别函数f(x,w)来估计y,估计过程中带来的损失为L(y,f(x,w)),则在某个w下对所有训练样本的决策损失为:
称作经验风险;
但其实我们真正关心的是测试样本在某个w下的风险:
称作期望风险;
是所有可能出现的样本及其类别标签的联合概率分布模型。
但是啊,这样的估计就一定保证可靠准确么?显然不行,于是《统计学习理论的本质》一书的作者Vapnik在他的书中给予了解答,他指出,有限样本下,经验风险与期望风险是有差别的,后者可能大于前者,但不管怎样,两者之间总是满足一个规律:
上面不等式右边第二项
是一个关键项,叫做置信范围,与h成正比,与样本数量成反比,这里的h很重要,它就是著名的叫做VC维的东西,反映了机器的复杂性程度。
同时,透过这个规律,我们得到一个重要结论:在训练误差相同的情况下,机器的VC维越低,期望风险跟经验风险的差别就越小,机器的推广能力也就越好。
模式识别是一种基于数据的机器学习,学习的目的不仅是要对训练样本正确分类,而且能对测试样本正确分类,这种能力叫做推广能力或范化能力。
如何评估一个学习机器的推广能力呢?
设某一样本x,其真实所属类别标签为y,用判别函数f(x,w)来估计y,估计过程中带来的损失为L(y,f(x,w)),则在某个w下对所有训练样本的决策损失为:
称作经验风险;
但其实我们真正关心的是测试样本在某个w下的风险:
称作期望风险;
是所有可能出现的样本及其类别标签的联合概率分布模型。
但是啊,这样的估计就一定保证可靠准确么?显然不行,于是《统计学习理论的本质》一书的作者Vapnik在他的书中给予了解答,他指出,有限样本下,经验风险与期望风险是有差别的,后者可能大于前者,但不管怎样,两者之间总是满足一个规律:
上面不等式右边第二项
是一个关键项,叫做置信范围,与h成正比,与样本数量成反比,这里的h很重要,它就是著名的叫做VC维的东西,反映了机器的复杂性程度。
同时,透过这个规律,我们得到一个重要结论:在训练误差相同的情况下,机器的VC维越低,期望风险跟经验风险的差别就越小,机器的推广能力也就越好。
相关文章推荐
- Git学习总结(2)——初识 GitHub
- 加速Android Studio/Gradle构建
- hadoop命令详解
- unity资源优化插件
- c# 导出数据到Excel模板
- 精简版的textEditor
- 转:log4net使用详解
- MISCONF Redis is configured to save RDB snapshots_http://www.cnblogs.com/anny-1980/p/4582674.html
- 如何利用matrix实现图片倒影效果
- Oracle 彻底 kill session
- leetcode_House Robber III
- MATLAB _GUI初识
- android_震动效果vibrator
- Android——数据存储(课堂代码整理:SharedPreferences存储和手机内部文件存储)
- C# 中DateTime的各种使用
- C++的配置项
- 64位系统使用PLSQL Developer(图文教程)
- Redis核心解读-从Master到Slave的Replicantion
- 安卓程序中双击退出程序
- 瞬间移动(c(n, m))