[特征工程系列二]显性特征的基本处理方法
2018-02-11 17:36
411 查看
今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法。关于显性特征是什么,大家可以去看系列文章一。关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每周都会做。我们从菜市场买的菜,不经过处理是不能下锅的,因为需要清洗、摘取烂的叶子、切段等操作后才可以下锅。如果把机器学习整个流程比做炒一盘青菜的话,今天要介绍这些方式就有点像菜的前期处理过程。那我们就分类别介绍下,对于一份数据,需要针对特征做哪些处理。
1. 数据清洗
主要包括两方面,一方面是填充缺失值,因为在机器学习算法的计算过程中会对数据进行各种运算符的计算,需要把一些空值填充,通常会被填充为0或者是对应特征列的均值。第二方面是乱码问题,如果是文本数据,经常会出现编码问题,需要把数据的类型全部处理好,最好是double型的。
2. 去量纲
因为数据的量纲会影响到某些算法的计算,比如有两个字段数据分别是一个人吃饭用了多少秒、吃了多少斤饭,那一个是时间数据,另一个是重量数据,算法是无法感知这些量纲的影响的,所以需要一些数学手段规避。去量纲常用的方法是归一化和标准化。
标准化就是每个特征值减去均值再除以方差,表现的是数据的一个分布情况。
归一化是把数据的分布强制性的限制到0和1之间,使得向量单位化。
个人认为标准化对于刻画数据的特征效果更好。
3. 数据平滑
大家可能平时会接触到一些分布极不均匀的数据,比如一个数据区间是[0,256],但是百分之九十以上的数据分布在[0,10]和[200,256]这两个区间中。对于这样的数据可以通过取对数的方式来处理,让数据的分布更加平滑。或者干脆数据分桶,去一个中间阈值,小于128的标记为0,大于128的标记为1。
4. 数据去噪
很多时候数据因为采集方式可能出现各别事故,比如有的数据是靠调查问卷采集上来的,但是就有一个人不认真写,瞎写,造成了噪声数据。这种跟事实偏差极大的数据,可以通过正态分布的原理去除,因为可以设想数据的分布大部分是比较平均的,符合正态分布,那与均值偏差极大的部分就很有可能是噪声,需要去除。
5. 降维
降维的方式很多啦,如果要讲的话需要非常大的篇幅,之前在写书的时候已经写了一遍了~有点懒,在这里简单题下。其实除了PCA、LDA这两种降维方式以外,逻辑回归中的正则L1也可以理解为一种降维处理。
1. 数据清洗
主要包括两方面,一方面是填充缺失值,因为在机器学习算法的计算过程中会对数据进行各种运算符的计算,需要把一些空值填充,通常会被填充为0或者是对应特征列的均值。第二方面是乱码问题,如果是文本数据,经常会出现编码问题,需要把数据的类型全部处理好,最好是double型的。
2. 去量纲
因为数据的量纲会影响到某些算法的计算,比如有两个字段数据分别是一个人吃饭用了多少秒、吃了多少斤饭,那一个是时间数据,另一个是重量数据,算法是无法感知这些量纲的影响的,所以需要一些数学手段规避。去量纲常用的方法是归一化和标准化。
标准化就是每个特征值减去均值再除以方差,表现的是数据的一个分布情况。
归一化是把数据的分布强制性的限制到0和1之间,使得向量单位化。
个人认为标准化对于刻画数据的特征效果更好。
3. 数据平滑
大家可能平时会接触到一些分布极不均匀的数据,比如一个数据区间是[0,256],但是百分之九十以上的数据分布在[0,10]和[200,256]这两个区间中。对于这样的数据可以通过取对数的方式来处理,让数据的分布更加平滑。或者干脆数据分桶,去一个中间阈值,小于128的标记为0,大于128的标记为1。
4. 数据去噪
很多时候数据因为采集方式可能出现各别事故,比如有的数据是靠调查问卷采集上来的,但是就有一个人不认真写,瞎写,造成了噪声数据。这种跟事实偏差极大的数据,可以通过正态分布的原理去除,因为可以设想数据的分布大部分是比较平均的,符合正态分布,那与均值偏差极大的部分就很有可能是噪声,需要去除。
5. 降维
降维的方式很多啦,如果要讲的话需要非常大的篇幅,之前在写书的时候已经写了一遍了~有点懒,在这里简单题下。其实除了PCA、LDA这两种降维方式以外,逻辑回归中的正则L1也可以理解为一种降维处理。
相关文章推荐
- 特征工程之连续特征与离散特征处理方法介绍
- 特征工程之类别特征 处理方法介绍
- [特征工程系列三]显性特征的衍生
- 特征工程之连续特征与离散特征处理方法介绍
- 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别
- 特征工程:连续数值v.s.离散类别的处理方法(二)
- 机器学习(一)特征工程基本流程
- UIALertView的基本用法与UIAlertViewDelegate对对话框的事件处理方法
- 需求工程系列(四)- 用例基本与UML“无关”
- UIALertView的基本用法与UIAlertViewDelegate对对话框的事件处理方法
- 图像处理基本算法 形状特征
- php表单处理基本方法
- 基本opencv2处理方法(二)
- ObjectiveC开发教程--字符串的基本操作处理方法
- shell脚本处理大数据系列之(一)方法小结
- MATLAB图像处理-特征提取-形状特征 方法小结
- [置顶] RecycleView的基本配置和使用方法(三)---RecycleView中 item的事件处理
- eclipse 或MyEclipse将工程进行移动的时候会对@Override报错的处理方法
- 视频二值化处理基本方法以及简单代码实现
- 特征工程:数据处理,模型训练集锦(二)