梯度下降法
2017-10-24 20:53
459 查看
梯度下降分类
批梯度下降法(BGD):使用整个数据集所有的样本得到的loss对每个参数进行更新;随机梯度下降法(SGD):使用一个数据样本得到loss对每个参数更新;
小批量梯度下降法(MBGD):使用M个样本得到的loss对每个参数更新;
注意:对于所有的梯度下降方法,如果问题不是凸问题那么所有的方法都有可能陷入局部最小值,不一定能得到全局最优值。
批梯度下降法
定义:批梯度下降法首先对数据集中所有的样本应用当前的网络参数进行计算得到估计值Y(i)’,并且计算所有样本的失真L(i)=(Y(i)-Y(i)’)^2,然后求平均loss,用求出的平均loss对网络参数进行更新。缺点:每次更新都需要计算每个样本的loss,仅适用于小数据集不能用于大数据集。
优点:暂时还没找到!
随机梯度下降
定义:每次仅计算一个样本的loss,然后用这个loss对网络参数进行更新。优点:由于每次仅计算一个样本的loss,计算复杂度很低,收敛较快。
缺点:由于每次计算一个样本的loss,不能保证更新得到的参数是往最优值的方向前进,可能一直在震荡。
小批量梯度下降法
定义:每次计算M个样本的loss,然后用这个loss对网络参数进行更新。优点:与SGD一致。
缺点:与SGD一致。
说明:MBGD是BGD和SGD的一种折衷,现在所说的SGD一般值MBGD,实际运用也是MBGD。
相关文章推荐
- 使用梯度下降与牛顿法求解最小平方和问题
- 梯度下降有关概念总结
- 图灵程序丛书 —《数据科学入门》— Ch8 梯度下降法
- 梯度下降法的三种形式BGD、SGD以及MBGD
- 梯度下降法与随机梯度下降法的python代码实现
- 其实都没有很懂梯度下降
- 2.神经网络与深度学习(一)-基本概念与随即梯度下降
- 梯度下降之--导数与梯度理解
- 梯度与向量与梯度下降法求极值
- 【IUML】回归和梯度下降
- 梯度、梯度下降法、随机梯度下降法
- 第一讲.Liner_Regression and Gradient_Descent(Rui Xia) 单变量线性回归及梯度下降
- 【stanford】梯度、梯度下降,随机梯度下降
- 如何使基于梯度下降的机器学习并行化
- 线性回归与梯度下降(附Matlab实现)
- 梯度下降深入浅出
- 批处理梯度下降BGD与随机梯度下降SGD
- 参数学习算法之梯度下降
- 梯度下降VS随机梯度下降
- Machine Learning - Gradient Descent (梯度下降)