您的位置:首页 > 其它

梯度下降法的数学推导

2015-05-07 16:40 225 查看
第一次接触梯度下降法是从Andrew Ng的机器学习课程上,当时看到这个公式有点疑惑,为什么这样迭代几次最后就能收敛到局部极值呢?



其中,α称为学习率,是一个能自己设定的常数,通常很小,下面还会讲到;θ是各个参数的权重(是一个向量),因为我们的目标是确定一个θ向量使得下式得到最小值:

这个问题的来源可以参看这个博客(http://blog.csdn.net/abcjennifer/article/details/7691571



这个地方我当时还疑惑:直接求导让导数为“0”不就能取得极值么?学到后面发现思想是对的,实际是不可行的,比如有时候求解这样的方程组非常复杂.

回到最开始的问题,为什么用梯度下降法能收敛到极值呢?





引用文献

Stanford机局部优化算法之一: 梯度下降法器学习—第一讲. http://blog.csdn.net/abcjennifer/article/details/7691571

梯度下降法 http://blog.csdn.net/woxincd/article/details/7040944

局部优化算法 李金屏
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习