您的位置：首页 > 其它

梯度下降法

2018-03-11 01:28 351 查看

一、gd和ols：https://www.zhihu.com/question/20822481
理解：ols原理是极值即损失函数最小值，所以可以轻易达到全局最优的闭式解close form。
然而它具有多种局限性：只能解决线性回归、参数估计时要求xtx可逆（存在x多重共线性下估计效率很差的问题）、矩阵计算量大、需要高斯马尔科夫条件才能保证blue性质。
所以考虑没有任何前提假定的迭代法（逼近思想），gd是迭代法的一种。

二、gd中为什么不直接令导数为0？https://www.zhihu.com/question/20319985/answer/15433519
很多情况下解不出参数

2.学习率即步长
为什么要调整学习率（和进行特征缩放）：http://blog.csdn.net/chenguolinblog/article/details/52138510
如何调整学习率：http://blog.csdn.net/u012162613/article/details/44265967
神经网络难以优化的原因主要在于gd难以跑出鞍点：https://www.zhihu.com/question/52782960/answer/133724696

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 学习率梯度下降gd 鞍点

相关文章推荐

新的分享

章节导航