Python机器学习:4.9 利用随机森林评估特征重要性
2018-03-12 12:45
323 查看
在前面一节,你学习了如何利用L1正则将不相干特征变为0,使用SBS算法进行特征选择。另一种从数据集中选择相关特征的方法是利用随机森林。随机森林能够度量每个特征的重要性,我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机森林评估特征重要性,在训练好随机森林模型后,直接调用feature_importances属性就能得到每个特征的重要性。下面用Wine数据集为例,我们训练一个包含10000棵决策树的随机森林来评估13个维度特征的重要性(第三章我们就说过,对于基于树的模型,不必对特征进行标准化或归一化):
我们可以得出结论:‘Alcohol’是最能区分类别的特征。有趣地是,重要性排名前三的特征也在SBS的最优5特征子集中。sklearn的随机森林实现,包括一个transform方法能够基于用户给定的阈值进行特征选择,所以如果你要用RandomFroestClassifier作为特征选择器,这就很easy了。举个例子:设置阈值为0.15,会选择出三个维度特征,Alcohol、Malic acid和Ash。
Python机器学习中文版目录(http://www.aibbt.com/a/20787.html)转载请注明出处,Python机器学习(http://www.aibbt.com/a/pythonmachinelearning/)
我们可以得出结论:‘Alcohol’是最能区分类别的特征。有趣地是,重要性排名前三的特征也在SBS的最优5特征子集中。sklearn的随机森林实现,包括一个transform方法能够基于用户给定的阈值进行特征选择,所以如果你要用RandomFroestClassifier作为特征选择器,这就很easy了。举个例子:设置阈值为0.15,会选择出三个维度特征,Alcohol、Malic acid和Ash。
Python机器学习中文版目录(http://www.aibbt.com/a/20787.html)转载请注明出处,Python机器学习(http://www.aibbt.com/a/pythonmachinelearning/)
相关文章推荐
- 利用随机森林对特征重要性进行评估
- 机器学习:用随机森林来选择特征
- R语言︱机器学习模型评估方案(以随机森林算法为例)
- 随机森林进行特征重要性度量的详细说明
- 利用随机森林做特征选择
- 利用随机森林做特征选择
- R语言︱机器学习模型评估方案(以随机森林算法为例)
- R语言︱机器学习模型评估方案(以随机森林算法为例)
- 利用随机森林做特征选择
- RandomForestClassifier(随机森林检测每个特征的重要性及每个样例属于哪个类的概率)
- 随机森林之特征选择
- GBDT原理及利用GBDT构造新的特征-Python实现
- Python数据挖掘与机器学习_通信信用风险评估实战(3)——特征工程
- 利用Python,四步掌握机器学习
- 调用Weka API,在使用分类器(以随机森林Random Forest为例)的同时使用特征选择方法
- python 3利用Dlib 19.7实现摄像头人脸检测特征点标定
- 随机森林对鸢尾花数据的两特征组合的分类结果
- 利用Python,四步掌握机器学习
- 利用Python-caffe进行图像分类,卷积核的显示,激活值特征图的显示以及全连接层直方图显示
- 随机森林的原理分析及Python代码实现