您的位置：首页 > 其它

梯度下降法的数学推导

2015-05-07 16:40 225 查看

第一次接触梯度下降法是从Andrew Ng的机器学习课程上，当时看到这个公式有点疑惑，为什么这样迭代几次最后就能收敛到局部极值呢？

其中，α称为学习率，是一个能自己设定的常数，通常很小，下面还会讲到；θ是各个参数的权重（是一个向量），因为我们的目标是确定一个θ向量使得下式得到最小值：

这个问题的来源可以参看这个博客（http://blog.csdn.net/abcjennifer/article/details/7691571）

这个地方我当时还疑惑：直接求导让导数为“0”不就能取得极值么？学到后面发现思想是对的，实际是不可行的，比如有时候求解这样的方程组非常复杂.

回到最开始的问题，为什么用梯度下降法能收敛到极值呢？

引用文献

Stanford机局部优化算法之一：梯度下降法器学习—第一讲. http://blog.csdn.net/abcjennifer/article/details/7691571

梯度下降法 http://blog.csdn.net/woxincd/article/details/7040944

局部优化算法李金屏

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航