给面试官讲特征选择
2020-04-02 18:49
866 查看
特征选择
1. 意义
- 降维,减少计算量
- 特征优选,降低模型复杂度,符合“奥卡姆剃刀”原理
2. 方法
- 去除变化较小的特征
- 方差选择法:选择方差较大的特征
- PCA降维,同时可以去特征间耦合
- 皮尔逊相关度:选取互相独立的标签
- 根据可分性判据:类内类间距离、概率分布、信息熵等,每次单独计算各个特征的可分性判据,选前m个
- 互信息系数
- L1正则化,Lasso回归
- 树模型,根据平均不纯度减少值划分,算出每个特征对不纯度减少的贡献(缺点:对先选的特征先降低,并不一定后选的就不如先选的重要,因此要多次取平均)
- 随机森林随机列采样,集成学习
- gdbt、xgb进行特征组合,对叶子节点的类别编码(真实类别所属叶子节点编1,其余编0),后接LR继续训练(CTR常用)
- embdding,深度学习、NLP中常用,通过全连接组合特征,输出为两层间的参数值
- 最优选择算法,从M个中选n个,枚举C(n,M)种可能性
- SFS:每次从剩下的特征里选一个最优的
- SBS:第一次选全部特征,每次剔除一个最差的
- LR:结合SFS和SBS
- 遗传算法:每次选一批优选特征,进行交叉和变异,直至收敛
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- 机器学习中的特征选择
- 特征选择方法之TF-IDF、DF
- 特征选择与特征学习
- 转载︱案例 基于贪心算法的特征选择
- 特征选择
- 特征选择之 FCBF算法
- 机器学习之特征选择 (feature_selection)
- 特征选择
- 机器学习中的特征——特征选择的方法以及注意点
- 机器学习系列(6)_从白富美相亲看特征预处理与选择(下)
- 机器学习-特征选择
- 特征选择方法之信息增益
- 机器学习小常识2——数据处理与特征选择
- 随机森林之特征选择
- 7.4 特征选择
- 机器学习算法选择——特征提取
- 机器学习6(特征缩放,学习率,特征选择,多项式回归)
- 文本分类入门-特征选择方法之信息增益
- 模式识别_特征选择与分类器设计
- 随机森林之特征选择