归一化在梯度下降中的作用
2018-03-29 15:51
190 查看
在梯度下降中多数时候原始数据若没经过特征处理,数据的各个维度是存在着量级的差别,假如线性函数Ax+By+b=C,X维度数量级是十,Y的数量级是万,那么求出的A就比B大,那么在用梯度下降求解最优解过程中,对A求偏导每次变化是和X成线性的(结果只和x相关),对B求偏导是和B成线性的(结果只与y相关),这样就造成两个维度下降速度不一致的问题,在图像上面显示就是A每次走的step很小,B的step很大,可能导致某一个维度由于数量级较大已经到达最低点,而其他维度由于数量级的差异未到达最低点,先到达最低点的维度需要等待其他维度,走出的曲线是震荡性较大图像:
一.方差归一化
方差归一化就是在训练模型之前对各个维度的数据除以方差,使各维度数量级相同。这样就不至于谁去等谁,可以走出较平滑的曲线,加快收敛速度。缺点:不能保证数据有正有负
二.均值归一化
方差归一化不能保证数据有正有负,使各维度的梯度方向不能朝着不同的方向前进,假如如下情形,随机梯度初始点为A点,最优解在B点,需要x变小,y变大,如果两个维度全为正数或全为负数,就不能朝着反方向变化,y需要先到C点,再有C到A,均值归一化可以加快梯度收敛的速度。
总结:归一化操作能够加快梯度下降的速度,方差归一化能够使各维度有相同的数量级,但是不能像均值归一化那样保证数据有正有负,所以在应用中经常使用的是方差均值归一化。
一.方差归一化
方差归一化就是在训练模型之前对各个维度的数据除以方差,使各维度数量级相同。这样就不至于谁去等谁,可以走出较平滑的曲线,加快收敛速度。缺点:不能保证数据有正有负
二.均值归一化
方差归一化不能保证数据有正有负,使各维度的梯度方向不能朝着不同的方向前进,假如如下情形,随机梯度初始点为A点,最优解在B点,需要x变小,y变大,如果两个维度全为正数或全为负数,就不能朝着反方向变化,y需要先到C点,再有C到A,均值归一化可以加快梯度收敛的速度。
总结:归一化操作能够加快梯度下降的速度,方差归一化能够使各维度有相同的数量级,但是不能像均值归一化那样保证数据有正有负,所以在应用中经常使用的是方差均值归一化。
相关文章推荐
- 《白话深度学习与Tensorflow》学习笔记(2)梯度下降、梯度消失、参数、归一化
- 【机器学习深度学习】教程——学习率,批梯度下降,归一化
- 为什么一些机器学习模型需要对数据进行归一化?——1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度
- 梯度下降中的归一化、标准化问题
- 回归与梯度下降法及实现原理
- Adaptive linear neurons model 线性神经元 运用梯度下降法 进行代价函数的最优化
- 机器学习(一、二):批梯度下降法、随机/增量梯度下降法、最小二乘法
- 机器学习(1)之梯度下降(gradient descent)
- 机器学习-5 多变量的梯度下降 Gradient Descent For Multiple Variables
- 梯度下降优化算法综述
- GD(梯度下降)和SGD(随机梯度下降)比较
- 梯度下降法的三种形式BGD、SGD以及MBGD
- 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
- 梯度下降 随机梯度下降 批量梯度下降
- 最小二乘与梯度下降的关联与区别
- 梯度下降法
- 几种常用的优化方法梯度下降法、牛顿法、)
- 梯度下降
- 关于机器学习中的梯度下降
- 梯度下降小结