模型选择与特征选择
2015-01-28 17:32
190 查看
模型选择:
对备选的m个模型(A1,A2,A3,......Am),分别计算每个模型的误差(可以用所有样本训练误差或者K重交叉检验(k一般取10,k越大对数据的利用率越高)
得到的误差,总之用一种手段评判模型的好坏),然后选择其中最好的一个。
特征选择:
(1)前向搜索(设置初始特征集为空,然后逐步添加特征,如选择加入后能使模型误差最小的特征),后向搜索(初始特征集为全部特征,然后逐步删除特征,
如选择删除后模型误差最小的特征),逐步选择(前向搜索和后向搜索的结合,动态地加入和删除特征)。
(2)滤特征选择:按照某种标准对特征进行排序,选择前k个(k可以人为指定,也可以用模型选择的方法确定)。这个标准可以是:(a)与因变量的相关系数,
协方差,KL距离。(b)每个特征的方差大小,或做主成分分析。
特征选择的(1)方法是一类比较”好“的特征选择方法,但缺点是计算量太大。(2)方法效果一般不如(1)好,但计算量小。
可以看出,PCA只是分析自变量之间的相关性,没有考虑因变量。PCA得到的每个特征都是多个特征的线性组合,而前向搜索等算法得到的特征是原始特征的子集。
对备选的m个模型(A1,A2,A3,......Am),分别计算每个模型的误差(可以用所有样本训练误差或者K重交叉检验(k一般取10,k越大对数据的利用率越高)
得到的误差,总之用一种手段评判模型的好坏),然后选择其中最好的一个。
特征选择:
(1)前向搜索(设置初始特征集为空,然后逐步添加特征,如选择加入后能使模型误差最小的特征),后向搜索(初始特征集为全部特征,然后逐步删除特征,
如选择删除后模型误差最小的特征),逐步选择(前向搜索和后向搜索的结合,动态地加入和删除特征)。
(2)滤特征选择:按照某种标准对特征进行排序,选择前k个(k可以人为指定,也可以用模型选择的方法确定)。这个标准可以是:(a)与因变量的相关系数,
协方差,KL距离。(b)每个特征的方差大小,或做主成分分析。
特征选择的(1)方法是一类比较”好“的特征选择方法,但缺点是计算量太大。(2)方法效果一般不如(1)好,但计算量小。
可以看出,PCA只是分析自变量之间的相关性,没有考虑因变量。PCA得到的每个特征都是多个特征的线性组合,而前向搜索等算法得到的特征是原始特征的子集。
相关文章推荐
- 4-4 特征选择和模型建立
- 交叉验证及其用于参数选择、模型选择、特征选择的例子
- python机器学习库sklearn——数据归一化、标准化、特征选择、逻辑回归、贝叶斯分类器、KNN模型、支持向量机、参数优化
- 斯坦福ML公开课笔记10——VC维、模型选择、特征选择
- 学习理论-模型选择-3-模型训练规则、特征选择
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- 模型选择之特征选择
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- 11.VC维度,模型选择,特征选择
- 模型选择与特征选择
- 模型选择与特征选择
- 第4章-模型中特征子集的选择
- cross_val_score交叉验证及其用于参数选择、模型选择、特征选择
- Spark MLlib编程API入门系列之特征选择之R模型公式(RFormula)
- 斯坦福ML公开课笔记10——VC维、模型选择、特征选择
- 公开课机器学习笔记(17)学习理论二 VC维、ERM总结、模型选择、特征选择
- scikit-learn中交叉验证及其用于参数选择、模型选择、特征选择的例子
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- sklearn特征选择和分类模型
- 模型选择和特征选择经验总结