机器学习-归一化、标准化
2017-09-29 14:49
471 查看
最近学习机器学习,往往需要对数据进行预处理,今天记录一下预处理中的归一化、标准化的意义。
归一化
要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。一般指将数据限制在[0 1]之间。主要是为了数据处理方便提出来的,把数据映射到0-1之间处理,更便携快速。一般使用公式:
标准化
对原始数据进行缩放处理,限制在一定的范围内。一般指正态化,即均值为0,方差为1。即使数据不符合正态分布,也可以采用这种方式方法,标准化后的数据有正有负。
由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
通俗的讲就是数据的多个维度单位不一样,维度的数值相差较大,导致其中某些维度对结果的影响较大或较小。从而是分类误差加大。所以采用标准化数据。一般采用Z-score规范化:即均值为0,方差为1的正态分布; 公式:
python中可以使用scale()函数:X = np.array([
[1,-1,2],
[2,0,0],
[0,1,-1]
])
x_scaled = preprocessing.scale(X)#标准化`
1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化方法(Z-score standardization)表现更好。
2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
归一化
要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。一般指将数据限制在[0 1]之间。主要是为了数据处理方便提出来的,把数据映射到0-1之间处理,更便携快速。一般使用公式:
标准化
对原始数据进行缩放处理,限制在一定的范围内。一般指正态化,即均值为0,方差为1。即使数据不符合正态分布,也可以采用这种方式方法,标准化后的数据有正有负。
由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
通俗的讲就是数据的多个维度单位不一样,维度的数值相差较大,导致其中某些维度对结果的影响较大或较小。从而是分类误差加大。所以采用标准化数据。一般采用Z-score规范化:即均值为0,方差为1的正态分布; 公式:
python中可以使用scale()函数:X = np.array([
[1,-1,2],
[2,0,0],
[0,1,-1]
])
x_scaled = preprocessing.scale(X)#标准化`
以上为两种比较普通但是常用的归一化技术,那这两种归一化的应用场景是怎么样的呢?什么时候**归一化**方法比较好、什么时候**标准化**方法比较好呢?下面做一个简要的分析概括:
1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化方法(Z-score standardization)表现更好。
2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
相关文章推荐
- 【机器学习】数据归一化与标准化
- 机器学习——标准化/归一化的目的和作用
- 机器学习中关于数据的归一化和标准化
- python机器学习库sklearn——数据归一化、标准化、特征选择、逻辑回归、贝叶斯分类器、KNN模型、支持向量机、参数优化
- 机器学习中的标准化/归一化
- 机器学习_标准化和归一化
- 【机器学习】【数据预处理】数据的规范化,归一化,标准化,正则化
- 机器学习之归一化
- [ 转]数据归一化和两种常用的归一化方法:极小极大标准化,0均值1标准差标准化
- sklearn —— 标准化、归一化、正则化
- 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
- 数据预处理 —— 归一化/标准化/正则化
- 课程 | 浅析数据标准化和归一化,优化机器学习算法输出结果
- 2017.03.24回顾 归一化 标准化 R2 date_format 共线性 系数检验 决策树
- 机器学习-数据归一化方法
- 数据标准化和归一化
- 数据的标准化(归一化)
- 机器学习中的归一化
- 数据归一化、标准化
- 为什么一些机器学习模型需要对数据进行归一化?