机器学习-数据归一化
2016-12-21 17:09
190 查看
定义
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。两种常用的归一化方法
min-max标准化
Z-score标准化方法
优点
归一化后加快了梯度下降求最优解的速度;归一化有可能提高精度(归一化是让不同维度之间的特征在数值上有一定比较性);
min-max标准化(Min-Max Normalization)
定义:也称为离差标准化,是对原始数据的线性变换,使结果值映射到0 - 1之间。本质:把数变为【0,1】之间的小数
转换函数:(X - Min)/(Max - Min)
如果想要将数据映射到-1,1,则将公式换成:(X - Mean)/(Max - Min)
max为样本数据的最大值 min为样本数据的最小值 x_mean表示数据的均值 缺陷:当有新数据加入时,可能导致max和min的变化,需要重新定义。
Z-score标准化方法
定义:这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1本质:把有量纲表达式变为无量纲表达式
转换函数:(X - Mean)/(Standard deviation)
Mean为所有样本数据的均值 Standard deviation为所有样本数据的标准差。
使用场景
在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好。第一种方法(线性变换后),其协方差产生了倍数值的缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时,由于量纲的存在,使用不同的量纲、距离的计算结果会不同。
在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在0 255的范围。
第二种归一化方式中,新的数据由于对方差进行了归一化,这时候每个维度的量纲其实已经等价了,每个维度都服从均值为0、方差1的正态分布,在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。
参考文档
数据预处理再谈机器学习中的归一化方法
相关文章推荐
- 为什么一些机器学习模型需要对数据进行归一化?
- 为什么一些机器学习模型需要对数据进行归一化?
- 机器学习-9:MachineLN之数据归一化
- 【机器学习】数据归一化与标准化
- 【机器学习笔记】数据归一化
- 为什么一些机器学习模型需要对数据进行归一化?——1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度
- 机器学习中数据归一化和两种常用的归一化方法
- 【机器学习笔记】1.数据归一化
- 为什么一些机器学习模型需要对数据进行归一化?
- python机器学习库sklearn——数据归一化、标准化、特征选择、逻辑回归、贝叶斯分类器、KNN模型、支持向量机、参数优化
- 为什么一些机器学习模型需要对数据进行归一化?
- 机器学习-数据归一化方法
- Matlab与机器学习-- 数据的归一化
- 为什么一些机器学习模型需要对数据进行归一化?
- 为什么一些机器学习模型需要对数据进行归一化?
- 机器学习中为什么需要对数据进行归一化?
- 为什么一些机器学习模型需要对数据进行归一化?
- 机器学习中关于数据的归一化和标准化
- 为什么一些机器学习模型需要对数据进行归一化?
- 为什么一些机器学习模型需要对数据进行归一化?