您的位置:首页 > 其它

数据挖掘里面的特征工程

2017-09-03 10:52 351 查看
我在另一篇博客中写过《数据挖掘的流程----自己认为是最规范的》,里面描述了数据挖掘的完整的流程,这里我重点总结一些特征工程,不过不会写的特别细,因为目前有很多关于特征工程的优质的博客文章。

特征工程的方法大体可分三种方法:过滤式(Filter)、嵌入式(Embedded)和封装式(Wrapper)

1.过滤式(Filter)

这是最基本的特征选择方法,里面包括相似性检测方法、方差检测方法、熵的检测方法等,是基于统计学方法的方法

2.封装式(Wrapper)

它是在特征空间搜索和目标关系紧密的特征,分为前向搜索和后向搜索,简单就是把特征扔入模型,看模型的最后效果,如果加入或者减少特征对效果改变比较明显,则该特征保留

3.嵌入式(Embedded)

这种方法把特征选择内嵌的模型当中,比如我们使用lr训练模型,训练的结果会得到w,w可以表示各个特征的重要性,把系数小的去掉,剩下的就是我们需要的特征,同时也达到降维的目的。当然,也有把所有特征先做特征映射到另一个空间,在那里再做特征选择;深度学习号称可以自动特征选择,可是这种特征选择解释性不强,为了使用深度学习的优势,同时增加解释性,可以先做特征选择,把选择的特征feed到神经网络中

吐血推荐一本最最最好的特征工程类的书籍:《Feature Extraction, Foundations and Applications》,不过目前没有中文版,英文好的可以看看
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: