您的位置:首页 > 其它

机器学习基石笔记15——机器可以怎样学得更好(3)

2017-12-25 10:49 465 查看

Lecture 15: Validation

15.1 Model Selection Problem

略过!

用 Ein 来选择模型不靠谱,要用验证集

15.2 Validation

略过!

15.3 Leave-one-out Cross Validation

现在还有一个问题,Eloocv 是很多模型的Error 的均值。就算 Eloocv 效果很好。我们还是不知道用那个模型? 难道是训练 n 个模型,然后用投票法?居然真的是这样,如果是 loocv 组合 svm 岂不是嗨爆!还是 k 交叉验证更靠谱点

另外, leave-one-out cross validation 也算是 bagging 算法 (类似的还有 RF 中的 oob ),不过 leave-one-out cross validation 变的是训练数据,bagging 中模型参数会变。《西瓜书》关于 bagging 模型模型稳定的定性解释也能用于解释 leave-one-out cross validataion!



图 15-1

图 15-2 中关于 eave-one-out cross validation error 约等于 out-sample error 的证明也是奇特 !

如果样本数特别多,就没有做 leave-one-out cross validation 了



图 15-2

可以很直观的看出 Eloocv 的效果要比 Ein 要好(那么还需不需要更新 VC Dimension ?)

15.4 V-Fold Cross Validation

略过

题外话:

1. 第三小节的内容要参考《西瓜书》和网络资料

2. 想个无关本节的问题, 对于 bagging 而言。假设有个模型 A 在 in-sample 数据上表现的很好,而且在 out-sample 表现的也很好。此时如果用 bagging 算法计算的结果还不如单独用模型 A 计算出的结果。那么为什么还有用 bagging 呢? 仅仅是我们不知道如何将模型 A 挑选出来?

3. 前面写笔记时谈的都是 Ein 和 Eout ,要更新了前面的笔记

4. 如图 15-2 所示,有关特征数量和错误率间的关系还需要查找其它资料学习(本节出现这段内容也算是突兀的很)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: