您的位置：首页 > 其它

数据挖掘里面的特征工程

2017-09-03 10:52 351 查看

我在另一篇博客中写过《数据挖掘的流程----自己认为是最规范的》，里面描述了数据挖掘的完整的流程，这里我重点总结一些特征工程，不过不会写的特别细，因为目前有很多关于特征工程的优质的博客文章。

特征工程的方法大体可分三种方法：过滤式(Filter)、嵌入式(Embedded)和封装式(Wrapper)

1.过滤式(Filter)

这是最基本的特征选择方法，里面包括相似性检测方法、方差检测方法、熵的检测方法等，是基于统计学方法的方法

2.封装式(Wrapper)

它是在特征空间搜索和目标关系紧密的特征，分为前向搜索和后向搜索，简单就是把特征扔入模型，看模型的最后效果，如果加入或者减少特征对效果改变比较明显，则该特征保留

3.嵌入式(Embedded)

这种方法把特征选择内嵌的模型当中，比如我们使用lr训练模型，训练的结果会得到w，w可以表示各个特征的重要性，把系数小的去掉，剩下的就是我们需要的特征，同时也达到降维的目的。当然，也有把所有特征先做特征映射到另一个空间，在那里再做特征选择；深度学习号称可以自动特征选择，可是这种特征选择解释性不强，为了使用深度学习的优势，同时增加解释性，可以先做特征选择，把选择的特征feed到神经网络中

吐血推荐一本最最最好的特征工程类的书籍：《Feature Extraction, Foundations and Applications》，不过目前没有中文版，英文好的可以看看

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航