您的位置:首页 > 其它

数据归一化

2016-05-11 17:21 337 查看
数据归一化

目的

- 统一量纲

- 达到更好的模型训练效果(如BP算法中加速收敛)

方法

线性函数归一化

如使用原始数据的最小、最大值将原始数据变换到[0,1]范围内



0均值标准化(Z-score standardization)

将原始数据转化为均值为0,方差为1的数据集,公式为



其中,μ、σ分别为原始数据集的均值、方差。该方法要求原始数据的分布近似为高斯分布,否则归一化的效果会变差。

那什么情况下使用什么归一化方法呢?

首先考察两种方法对二维数据集X,Y的方差和协方差的影响。

对于线性函数归一化

X′=CXY′=CY归一化后的方差为cov(X′,Y′)=∑(CXi−CX¯¯¯)(CYi−CY¯¯¯)n−1=Ccov(X,Y)

对于0均值标准化方法

先进行数据0均值后得到

X′=X−X¯¯¯Y′=Y−Y¯¯¯新的协方差为:cov(X′,Y′)=∑(X′i−X¯¯¯′)(Y′i−Y¯¯¯′)n−1=∑X′iY′in−1原始数据协方差为:cov(X,Y)=∑(Xi−X¯¯¯)(Yi−Y¯¯¯)n−1=∑X′iY′in−1=cov(X′,Y′)进行方差归一化后,X′′=X′/σXY′′=Y′/σY新的方差为:cov(X′′,Y′′)=∑(X′′i−X′′¯¯¯¯¯)(Y′′i−Y′′¯¯¯¯¯)n−1=∑X′iY′i(n−1)σXσY=cov(X,Y)σXσY

以上计算得出,第一种方法新的协方差是原来的c倍,没有消除量纲对方差、协方差的影响,不适合PCA、距离度量相关的分析;第二种方法,对于服从正态分布的每个维度都被转换为均值为0,方差为1的标准正态分布,所以每个维度都被去量纲化了,适用于PCA、距离度量相关的分析。

参考

1.http://blog.csdn.net/zbc1090549839/article/details/44103801
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息