08-模型选择
2016-09-06 00:42
134 查看
模型复杂度
多项式曲线拟合
交叉验证
交叉验证方法
缺点
AIC
多项式的阶数控制着模型的自由变量的数量,从而控制模型的复杂度
带有正则化的最小二乘,正则化系数 λλ 同样控制着模型的有效复杂度
测试集(test set):有限的数据集迭代多次,那么对于验证数据会发生一定程度的过拟合,所以需要测试集
交叉验证出现的原因:如果验证集比较小,它对预测表现的估计就会有一定的噪声
多个超参数的情况,参数组合训练次数过多
找超参数的理想方法 :度量方法只依赖于训练数据,并且超参数的确定与模型类型的选择可以通过一次训练得出。需要找到一种只依赖于训练数据的表现度量,并且不会受过拟所产生的偏置的影响。
公式:
lnp(D|wML)−M
方法:这里的 p(D|wML) 是最合适的对数似然函数, M 是模型中的可调节参数
缺点:AIC准则没有考虑到模型参数的不确定性,在实际应用中它们倾向于选择过于简单的模型。
多项式曲线拟合
交叉验证
交叉验证方法
缺点
AIC
模型复杂度
多项式曲线拟合
存在一个最优的阶数使模型具有最好的泛化能力多项式的阶数控制着模型的自由变量的数量,从而控制模型的复杂度
带有正则化的最小二乘,正则化系数 λλ 同样控制着模型的有效复杂度
交叉验证
验证集(validation set):训练集独立出来的一部分数据,用于比较各个模型的预测能力,最后选择最优的那个测试集(test set):有限的数据集迭代多次,那么对于验证数据会发生一定程度的过拟合,所以需要测试集
交叉验证出现的原因:如果验证集比较小,它对预测表现的估计就会有一定的噪声
交叉验证方法
留一法:使用 (S−1)/S 的可用数据用来训练,同时使用所有的数据来评估表现。当数据相当稀疏时,使得 S=N 是比较合适的选择。最后利用运行结果的表现得分求平均值。缺点
需要进行的训练的次数随着因子 S 增加,训练时间增长不可控多个超参数的情况,参数组合训练次数过多
找超参数的理想方法 :度量方法只依赖于训练数据,并且超参数的确定与模型类型的选择可以通过一次训练得出。需要找到一种只依赖于训练数据的表现度量,并且不会受过拟所产生的偏置的影响。
AIC
赤池信息准则(Akaike information criterion),简称为AIC公式:
lnp(D|wML)−M
方法:这里的 p(D|wML) 是最合适的对数似然函数, M 是模型中的可调节参数
缺点:AIC准则没有考虑到模型参数的不确定性,在实际应用中它们倾向于选择过于简单的模型。
相关文章推荐
- 【Scikit-Learn 中文文档】模型评估: 量化预测的质量 - 模型选择和评估 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN
- libSVM简介及核函数模型选择
- 【Scikit-Learn 中文文档】优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】模型持久化 - 模型选择和评估 - 用户指南 | ApacheCN
- 机器学习笔记2.模型评估于选择----教材周志华西瓜书
- 1.4 模型评估和模型选择
- 第十五章:选择正确的线程模型
- 思维导图 || 模型评估与模型选择
- R︱mlr包挑选最适机器学习模型+变量评估与选择(案例详解)
- 面对数据缺失,如何选择合适的机器学习模型?
- EF添加ADO.NET实体模型处直接选择Oracle数据源
- 08.黑马程序员-流程控制(顺序、选择、循环)
- 软件工程之软件开发模型介绍和选择
- 西瓜书 第1-2章 绪论 模型评估选择
- 机器学习中模型的选择
- 模型设计与实践---(四)异步选择IO(AnsySelect IO)