机器学习(统计学习方法)3
2017-07-31 21:41
183 查看
Day 3
![](https://img-blog.csdn.net/20170731214808835?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzk2NTI5ODc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![](https://img-blog.csdn.net/20170731215027573?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzk2NTI5ODc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率·。
交叉验证
交叉验证的基本思路是:重复利用数据,将给定的数据进行切分,使之为训练集与测试集,在此基础上反复进行训练,测试以及模型的选择。
简单交叉验证:
随机分配数据,为训练集以及测试集,用训练集在各种条件下(参数不同)进行训练得出模型,再利用测试集对模型进行检验。选出误差最小的模型。
S折交叉检验(S-fold cross validation):将已知数据分为s个子集,对其中的s-1个子集数据进行模型训练,利用剩下的一个进行测试。对这一可能进行s次选择,最后从s个模型中选出误差最小的一个。
留一交叉检验:
当S=N时,的特殊情况,此时N为数据的容量。
![](https://img-blog.csdn.net/20170731220542521?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzk2NTI5ODc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
泛化误差上界:泛化误差概率上界。
性质:
1、是样本容量的函数,样本容量增加的时候,泛化上界趋于零。
2、是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界越大。
![](https://img-blog.csdn.net/20170731221907435?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzk2NTI5ODc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![](https://img-blog.csdn.net/20170731221928015?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzk2NTI5ODc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![](https://img-blog.csdn.net/20170731221941004?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzk2NTI5ODc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
ok,I admit I was lazy~but it is late,I am a little tired,so~see you tomorrow~bye~
正交化与交叉验证
正交化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。模型越复杂,正则化值越大。先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率·。
交叉验证
交叉验证的基本思路是:重复利用数据,将给定的数据进行切分,使之为训练集与测试集,在此基础上反复进行训练,测试以及模型的选择。
简单交叉验证:
随机分配数据,为训练集以及测试集,用训练集在各种条件下(参数不同)进行训练得出模型,再利用测试集对模型进行检验。选出误差最小的模型。
S折交叉检验(S-fold cross validation):将已知数据分为s个子集,对其中的s-1个子集数据进行模型训练,利用剩下的一个进行测试。对这一可能进行s次选择,最后从s个模型中选出误差最小的一个。
留一交叉检验:
当S=N时,的特殊情况,此时N为数据的容量。
泛化能力
学习方法的泛化能力是由该方法所得到的模型对未知数据的预测能力。泛化误差上界:泛化误差概率上界。
性质:
1、是样本容量的函数,样本容量增加的时候,泛化上界趋于零。
2、是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界越大。
ok,I admit I was lazy~but it is late,I am a little tired,so~see you tomorrow~bye~
相关文章推荐
- 机器学习(统计学习方法)
- 机器学习(统计学习方法)2
- 机器学习(统计学习方法)7 【感知机学习算法】
- 机器学习-统计学习方法概论
- 统计机器学习(1)-统计学习方法概论
- 机器学习(统计学习方法)6【第二章.感知机】
- 机器学习系列——统计学习方法1:第一章
- 机器学习系列笔记1:《统计学习》李航博士 第一章 统计学习方法概论
- 第一章 统计学习方法概论
- 机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率和模糊逻辑的常见问题解答
- 统计学习方法——维特比算法
- 统计学习方法
- 统计学习方法
- 感知机学习算法——统计学习方法笔记,代码实现
- 统计学习方法----k近邻法的实现:kd树
- 机器学习笔记(二)数理统计
- 统计学习方法读书笔记:感知机
- 统计学习方法----条件随机场3
- 概率统计与机器学习:极大后验概率以及正则化项
- 统计学习方法笔记(五)