机器学习:用随机森林来选择特征
2015-04-28 20:13
183 查看
引言
之前了解到决策树在选择最好的特征进行数据集的划分就说到这种方法可以用来进行特征选择,然后看了breiman主页上相关的介绍,觉得这不愧是权威啊,不愧是随机森林算法的提出者,讲的很清楚,网址如下
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
特征重要性
在随机森林中某个特征X的重要性的计算方法如下:
首先对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.这样每棵决策树可以得到一个errOOB1,K棵决策树就由K个errOOB1
然后就是要遍历所有的特征,来考察该特征的重要性,考察重要性的方式是,随机地对袋外数据OOB所有样本的特征X加入噪声干扰(可以理解为随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.这样每棵决策树可以得到一个errOOB2,K棵决策树就由K个errOOB2
之所以可以用这个表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。
那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ktree,
相关文章推荐
- 随机森林之特征选择
- 调用Weka API,在使用分类器(以随机森林Random Forest为例)的同时使用特征选择方法
- 利用随机森林做特征选择
- 利用随机森林做特征选择
- 利用随机森林做特征选择
- 【Machine Learning】使用随机森林进行特征选择
- 使用随机森林和mRMR进行特征选择
- 随机森林之特征选择
- 随机森林之特征选择
- 用随机森林做特征选择
- Python机器学习:4.9 利用随机森林评估特征重要性
- 机器学习中的特征选择的方法以及注意点
- 机器学习之特征选择
- 机器学习系列(6)_从白富美相亲看特征预处理与选择(下)
- 【机器学习】特征选择与特征转换
- 机器学习-文本特征选择
- 西瓜书《机器学习》课后答案——chapter11_11.1 Relief特征选择算法
- 机器学习与智能优化 之 排序与选择特征
- 机器学习中,有哪些特征选择的工程方法?
- 机器学习中特征选择