数据挖掘里面的特征工程
2017-09-03 10:52
351 查看
我在另一篇博客中写过《数据挖掘的流程----自己认为是最规范的》,里面描述了数据挖掘的完整的流程,这里我重点总结一些特征工程,不过不会写的特别细,因为目前有很多关于特征工程的优质的博客文章。
特征工程的方法大体可分三种方法:过滤式(Filter)、嵌入式(Embedded)和封装式(Wrapper)
1.过滤式(Filter)
这是最基本的特征选择方法,里面包括相似性检测方法、方差检测方法、熵的检测方法等,是基于统计学方法的方法
2.封装式(Wrapper)
它是在特征空间搜索和目标关系紧密的特征,分为前向搜索和后向搜索,简单就是把特征扔入模型,看模型的最后效果,如果加入或者减少特征对效果改变比较明显,则该特征保留
3.嵌入式(Embedded)
这种方法把特征选择内嵌的模型当中,比如我们使用lr训练模型,训练的结果会得到w,w可以表示各个特征的重要性,把系数小的去掉,剩下的就是我们需要的特征,同时也达到降维的目的。当然,也有把所有特征先做特征映射到另一个空间,在那里再做特征选择;深度学习号称可以自动特征选择,可是这种特征选择解释性不强,为了使用深度学习的优势,同时增加解释性,可以先做特征选择,把选择的特征feed到神经网络中
吐血推荐一本最最最好的特征工程类的书籍:《Feature Extraction, Foundations and Applications》,不过目前没有中文版,英文好的可以看看
特征工程的方法大体可分三种方法:过滤式(Filter)、嵌入式(Embedded)和封装式(Wrapper)
1.过滤式(Filter)
这是最基本的特征选择方法,里面包括相似性检测方法、方差检测方法、熵的检测方法等,是基于统计学方法的方法
2.封装式(Wrapper)
它是在特征空间搜索和目标关系紧密的特征,分为前向搜索和后向搜索,简单就是把特征扔入模型,看模型的最后效果,如果加入或者减少特征对效果改变比较明显,则该特征保留
3.嵌入式(Embedded)
这种方法把特征选择内嵌的模型当中,比如我们使用lr训练模型,训练的结果会得到w,w可以表示各个特征的重要性,把系数小的去掉,剩下的就是我们需要的特征,同时也达到降维的目的。当然,也有把所有特征先做特征映射到另一个空间,在那里再做特征选择;深度学习号称可以自动特征选择,可是这种特征选择解释性不强,为了使用深度学习的优势,同时增加解释性,可以先做特征选择,把选择的特征feed到神经网络中
吐血推荐一本最最最好的特征工程类的书籍:《Feature Extraction, Foundations and Applications》,不过目前没有中文版,英文好的可以看看
相关文章推荐
- [置顶] 数据挖掘实战之天池精准医疗大赛(6)——特征工程2
- kaggle数据挖掘竞赛初步--Titanic<数据变换> 完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic
- 数据挖掘sklearn中的的特征工程处理
- 数据挖掘-特征工程(特征挖掘)
- [置顶] 数据挖掘实战之天池精准医疗大赛(5)——特征工程1
- Python数据挖掘与机器学习_通信信用风险评估实战(3)——特征工程
- 数据挖掘实践与我的想法之特征工程
- [数据挖掘]利用Titanic学习特征工程
- 数据挖掘之特征工程(笔记)
- 算法岗位做数据挖掘大多都是抽特征跑跑现成模型”
- 数据挖掘:python数据清洗cvs里面带中文字符
- 大数据:“人工特征工程+线性模型”的尽头
- 从数据预处理到特征工程
- 大数据:“人工特征工程+线性模型”的尽头
- 机器学习 数据特征分析 特征工程
- 数据挖掘笔记-特征选择-开方检验
- 数据挖掘笔记-特征选择-算法实现-1
- 微博特征与行为的大数据挖掘分析
- 机器学习——特征工程之数据预处理
- 【数据挖掘】特征抽取之NMF