机器学习特征处理---离散化特征的方法
2018-02-06 16:13
351 查看
在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性, 模型会更稳定
连续性变量转化成离散型变量大致有两类方法:
(1)卡方检验方法;
(2)信息增益方法;
一: 卡方检验(X2检验)方法
1.1 分裂方法
1.2 合并方法
分裂方法,就是找到一个分裂点看,左右2个区间,在目标值上分布是否有显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点。
合并类似,先划分为多个很小的单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛。
二:信息增益方法
2.1 分裂方法
2.2 合并方法
这个和决策树的学习很类似。
分裂方法,就是找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛。
合并类似,先划分为多个很小的单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛。
(1)什么是信息增益?
熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:熵 - 条件熵
在一个条件下,信息不确定性减少的程度!
在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的!
连续性变量转化成离散型变量大致有两类方法:
(1)卡方检验方法;
(2)信息增益方法;
一: 卡方检验(X2检验)方法
1.1 分裂方法
1.2 合并方法
分裂方法,就是找到一个分裂点看,左右2个区间,在目标值上分布是否有显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点。
合并类似,先划分为多个很小的单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛。
二:信息增益方法
2.1 分裂方法
2.2 合并方法
这个和决策树的学习很类似。
分裂方法,就是找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛。
合并类似,先划分为多个很小的单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛。
(1)什么是信息增益?
熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:熵 - 条件熵
在一个条件下,信息不确定性减少的程度!
在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的!
相关文章推荐
- 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别
- 【方法】机器学习中的数据清洗与特征处理
- Python利用pandas/sklearn处理类别型特征;手动分段与离散化处理连续型特征
- 机器学习中的数据清洗与特征处理综述
- 特征工程:连续数值v.s.离散类别的处理方法(二)
- 机器学习中的特征——特征选择的方法以及注意点
- 机器学习总结-特征处理和特征选择
- 机器学习之(四)特征工程以及特征选择的工程方法
- 机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的特征——特征选择的方法以及注意点
- 机器学习中的数据清洗与特征处理综述
- 机器学习处理流程、特征工程,模型设计实例
- 关于机器学习中文本处理的一些常用方法
- DNS通道检测 国内学术界研究情况——研究方法:基于特征或者流量,使用机器学习决策树分类算法居多
- 机器学习知识点(三十七)特征选择方法总结
- 机器学习中的数据清洗与特征处理综述
- 非平衡数据集的机器学习常用处理方法
- 机器学习模型为什么要将特征离散化(转)