您的位置:首页 > 其它

机器学习(统计学习方法)3

2017-07-31 21:41 183 查看
Day 3

正交化与交叉验证

正交化

        正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。模型越复杂,正则化值越大。
        




先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率·。

交叉验证
交叉验证的基本思路是:重复利用数据,将给定的数据进行切分,使之为训练集与测试集,在此基础上反复进行训练,测试以及模型的选择。
简单交叉验证:
随机分配数据,为训练集以及测试集,用训练集在各种条件下(参数不同)进行训练得出模型,再利用测试集对模型进行检验。选出误差最小的模型。
S折交叉检验(S-fold cross validation):将已知数据分为s个子集,对其中的s-1个子集数据进行模型训练,利用剩下的一个进行测试。对这一可能进行s次选择,最后从s个模型中选出误差最小的一个。
留一交叉检验:
当S=N时,的特殊情况,此时N为数据的容量。

泛化能力

学习方法的泛化能力是由该方法所得到的模型对未知数据的预测能力。



泛化误差上界:泛化误差概率上界。
性质:
1、是样本容量的函数,样本容量增加的时候,泛化上界趋于零。
2、是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界越大。







ok,I admit I was lazy~but it is late,I am a little tired,so~see you tomorrow~bye~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: