您的位置:首页 > 职场人生

给面试官讲特征选择

2020-04-02 18:49 866 查看

特征选择

1. 意义

  1. 降维,减少计算量
  2. 特征优选,降低模型复杂度,符合“奥卡姆剃刀”原理

2. 方法

  1. 去除变化较小的特征
  2. 方差选择法:选择方差较大的特征
  3. PCA降维,同时可以去特征间耦合
  4. 皮尔逊相关度:选取互相独立的标签
  5. 根据可分性判据:类内类间距离、概率分布、信息熵等,每次单独计算各个特征的可分性判据,选前m个
  6. 互信息系数
  7. L1正则化,Lasso回归
  8. 树模型,根据平均不纯度减少值划分,算出每个特征对不纯度减少的贡献(缺点:对先选的特征先降低,并不一定后选的就不如先选的重要,因此要多次取平均)
  9. 随机森林随机列采样,集成学习
  10. gdbt、xgb进行特征组合,对叶子节点的类别编码(真实类别所属叶子节点编1,其余编0),后接LR继续训练(CTR常用)
  11. embdding,深度学习、NLP中常用,通过全连接组合特征,输出为两层间的参数值
  12. 最优选择算法,从M个中选n个,枚举C(n,M)种可能性
  13. SFS:每次从剩下的特征里选一个最优的
  14. SBS:第一次选全部特征,每次剔除一个最差的
  15. LR:结合SFS和SBS
  16. 遗传算法:每次选一批优选特征,进行交叉和变异,直至收敛
  • 点赞
  • 收藏
  • 分享
  • 文章举报
本堂町小春 发布了11 篇原创文章 · 获赞 9 · 访问量 281 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: