您的位置：首页 > 其它

Coursera Machine Learning Week 1.2: Linear Regression.one variable

2014-03-13 11:09 615 查看

regression问题是predict real-valued output

classification问题是discrete-valued output

linear regression

这是老师的笔记，cost function就是图中的J(西塔1，西塔2)，也就是说在training data中，要让真实值和regression后得出的值的差的平方和最小，这也是Squared error function。

那么 to minimize the cost function，我们要用到一个算法叫gradient descent，梯度下降。

从图中可以看到，先选择一个西塔0西塔1，然后每次寻找一个梯度最大的方向，也就是斜率最大的方向，往这个方向走一步，然后再同样的走，直到找到一个局部最优值。

这张图表明了gradient descent算法的数学表达，求导表明寻找出梯度最大的那个方向，阿尔法是learning rate，也就是每次要减去的值，西塔0和西塔1要simultaneously update。

而阿尔法的大小也很讲究，下图就说明了原因。

但其实这个阿尔法就算是定值，他也能最后达到收敛，达到局部最优值，因为在一开始这个点上，选择的最大梯度比较大，但是随着越来越接近最优值，这个最大梯度会越来越小，所以没必要变化阿尔法，这个最大梯度会自动变小。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航