您的位置:首页 > 其它

梯度下降法

2018-03-11 01:28 351 查看
一、gd和ols:https://www.zhihu.com/question/20822481
理解:ols原理是极值即损失函数最小值,所以可以轻易达到全局最优的闭式解close form。
            然而它具有多种局限性:只能解决线性回归、参数估计时要求xtx可逆(存在x多重共线性下估计效率很差的问题)、矩阵计算量大、需要高斯马尔科夫条件才能保证blue性质。
        所以考虑没有任何前提假定的迭代法(逼近思想),gd是迭代法的一种。

二、gd中为什么不直接令导数为0?https://www.zhihu.com/question/20319985/answer/15433519
很多情况下解不出参数

2.学习率即步长
为什么要调整学习率(和进行特征缩放):http://blog.csdn.net/chenguolinblog/article/details/52138510
如何调整学习率:http://blog.csdn.net/u012162613/article/details/44265967
神经网络难以优化的原因主要在于gd难以跑出鞍点:https://www.zhihu.com/question/52782960/answer/133724696
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息