数据归一化
2016-05-11 17:21
337 查看
数据归一化
目的:
- 统一量纲
- 达到更好的模型训练效果(如BP算法中加速收敛)
方法
其中,μ、σ分别为原始数据集的均值、方差。该方法要求原始数据的分布近似为高斯分布,否则归一化的效果会变差。
那什么情况下使用什么归一化方法呢?
首先考察两种方法对二维数据集X,Y的方差和协方差的影响。
对于线性函数归一化
X′=CXY′=CY归一化后的方差为cov(X′,Y′)=∑(CXi−CX¯¯¯)(CYi−CY¯¯¯)n−1=Ccov(X,Y)
对于0均值标准化方法
先进行数据0均值后得到
X′=X−X¯¯¯Y′=Y−Y¯¯¯新的协方差为:cov(X′,Y′)=∑(X′i−X¯¯¯′)(Y′i−Y¯¯¯′)n−1=∑X′iY′in−1原始数据协方差为:cov(X,Y)=∑(Xi−X¯¯¯)(Yi−Y¯¯¯)n−1=∑X′iY′in−1=cov(X′,Y′)进行方差归一化后,X′′=X′/σXY′′=Y′/σY新的方差为:cov(X′′,Y′′)=∑(X′′i−X′′¯¯¯¯¯)(Y′′i−Y′′¯¯¯¯¯)n−1=∑X′iY′i(n−1)σXσY=cov(X,Y)σXσY
以上计算得出,第一种方法新的协方差是原来的c倍,没有消除量纲对方差、协方差的影响,不适合PCA、距离度量相关的分析;第二种方法,对于服从正态分布的每个维度都被转换为均值为0,方差为1的标准正态分布,所以每个维度都被去量纲化了,适用于PCA、距离度量相关的分析。
目的:
- 统一量纲
- 达到更好的模型训练效果(如BP算法中加速收敛)
方法
线性函数归一化
如使用原始数据的最小、最大值将原始数据变换到[0,1]范围内0均值标准化(Z-score standardization)
将原始数据转化为均值为0,方差为1的数据集,公式为其中,μ、σ分别为原始数据集的均值、方差。该方法要求原始数据的分布近似为高斯分布,否则归一化的效果会变差。
那什么情况下使用什么归一化方法呢?
首先考察两种方法对二维数据集X,Y的方差和协方差的影响。
对于线性函数归一化
X′=CXY′=CY归一化后的方差为cov(X′,Y′)=∑(CXi−CX¯¯¯)(CYi−CY¯¯¯)n−1=Ccov(X,Y)
对于0均值标准化方法
先进行数据0均值后得到
X′=X−X¯¯¯Y′=Y−Y¯¯¯新的协方差为:cov(X′,Y′)=∑(X′i−X¯¯¯′)(Y′i−Y¯¯¯′)n−1=∑X′iY′in−1原始数据协方差为:cov(X,Y)=∑(Xi−X¯¯¯)(Yi−Y¯¯¯)n−1=∑X′iY′in−1=cov(X′,Y′)进行方差归一化后,X′′=X′/σXY′′=Y′/σY新的方差为:cov(X′′,Y′′)=∑(X′′i−X′′¯¯¯¯¯)(Y′′i−Y′′¯¯¯¯¯)n−1=∑X′iY′i(n−1)σXσY=cov(X,Y)σXσY
以上计算得出,第一种方法新的协方差是原来的c倍,没有消除量纲对方差、协方差的影响,不适合PCA、距离度量相关的分析;第二种方法,对于服从正态分布的每个维度都被转换为均值为0,方差为1的标准正态分布,所以每个维度都被去量纲化了,适用于PCA、距离度量相关的分析。
参考
1.http://blog.csdn.net/zbc1090549839/article/details/44103801相关文章推荐
- range 标准化之获取
- 深入理解CNN的细节
- weka中的数据预处理
- Python标准化 - 使用配置文件
- 数据预处理-归一化与z-score标准化
- Data Preprocessing-Python
- 数据挖掘-数据预处理模块
- Matlab中的数据归一化
- 数据归一化方法
- 图像验证码识别(八)——字符归一化
- 数据预处理之归一化
- 规范化(标准化)数据的3种方法
- Scikit-learn Preprocessing 预处理
- 数据预处理
- 模式识别 - 特征归一化 及 测试 代码(Matlab)
- [openCV]直方图均衡
- 联机事务处理(OLTP)与决策支撑体系(DSS)
- 数据的标准化
- 图像验证码识别(八)——字符归一化
- 互联网共享经济思考:标准化与个性化如何融合