您的位置:首页 > 其它

《统计学习方法》学习笔记(2)--模型选择、泛化能力

2017-04-24 10:36 274 查看
1.泛化能力用来表征学习模型对于未知数据的预测能力。

为了避免过拟合,且使误差最小,模型选择的常用方法有:正则化和交叉验证。

正则化是结构风险最小化策略的实现=经验风险最小化+正则化项/罚项

交叉验证

简单交叉验证,将数据70%作为训练集,30%作为测试集,然后选出测试误差最小的模型

S-fold交叉验证,将数据随机分成S份,将S-1份作为训练集,剩下的作为测试集,对于训练集和测试集有S种选择,所以选出S次评测的平均误差最小的模型

leave-one-out交叉验证,S-fold的特例,用于数据缺乏的情况,S=N,即一份里面只有一个数据

2.正则化的思想符合以下两个理论:

奥卡姆剃刀(Occam’s razor)原理:在所有可能的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。

贝叶斯估计:正则化项对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。

3.泛化误差,其实就是模型的期望风险:



因为上图公式中的p(x,y)也就是样本的联合分布没法求,所以我们用泛化误差上界(generalization error bound)来表征一个方法的泛化能力。具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

泛化误差上界性质:

是样本容量的函数,样本容量增加时,泛化误差上界趋于0;

是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。



第一项是经验误差(训练误差) 。第二项,N是样本数量,当N趋于无穷时,这项为0,即期望误差等于经验误差 d表示假设空间中的函数个数,越大就越难学,泛化误差就越大。

4.生成模型与判别模型

监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。对应的模型的即为生成模型和判别模型。

生成模型是指由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,如:朴素贝叶斯和隐马尔可夫模型等。优点是可以得到联合概率分布,收敛速度更快,当存在隐变量时,仍可以使用。

判别模型是指由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测模型,如:KNN,感知机,决策树,逻辑回归,支持向量等。优点是学习准确率比较高,便于对数据进行抽象,可以简化学习问题。

判别模型与生成模型的最重要的不同是,训练时的目标不同,判别模型主要优化条件概率分布,使得x,y更加对应,在分类中就是更可分。而生成模型主要是优化训练数据的联合分布概率。而同时,生成模型可以通过贝叶斯得到判别模型,但判别模型无法得到生成模型。

5.统计学习还可以根据输入输出的不同类型,分为:

分类问题

输出变量是有限个离散值时,就是分类问题

学习出的分类模型或分类决策函数称为分类器(classifier) ,分类问题常用的评价指标:准确率与召回率,详见: 准确率-召回率,击中率-虚警率,PR曲线和mAP,ROC曲线和AUC

标注问题

输入是一个观测序列,而输出是一个标记序列

典型的应用,词性标注,输入词序列,输出是(词,词性)的标记序列 ,详见: 隐马尔可夫模型与词性标注(上)隐马尔可夫模型与词性标注(下)

回归问题

输入输出都是连续变量是,就是回归问题,等价于函数拟合。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  统计学