您的位置：首页 > 其它

【斯坦福---机器学习】复习笔记之监督学习应用.梯度下降

2015-07-02 18:58 501 查看

本讲内容：

1.Linear regression(线性回归)

2.Gradient descent(梯度下降)

3.Normal equation(正规方程组)

supervised learning(监督学习)：给定一组数据集，告诉算法正确的答案，经过训练，给定输入能够给出正确的输出。

开始一个监督学习的例子，房子面积和价格的关系：

给定这样的数据，怎样预测其他房子的价格？

引入一些符号：

表示输入变量，也叫做输入特性（本例中的居住面积）

表示输出或者说目标变量（本例中预测的价格）

表示训练样本

表示训练集

监督学习的流程如下图所示：

线性回归

为了使问题更加有趣，提供一个更加丰富的数据集，还知道房子的卧室数量：

假设y是x的一个线性函数：

假设X0=1，得到：

其中，n是输入变量的数目（不包括x0）。

为了表示

和

的距离，定义函数：

1 LMS 算法

我们需要求出使得

最小化的

考虑梯度下降算法，给定初值，反复更新

的值：

其中

是学习速度；

假设只有一个训练样本，则有：

对于单个样本，更新规则如下：

这个就是LMS更新规则（least mean squares,最小二乘法）

如果样本不止一个，需要修改更新的规则，

批处理梯度下降（batch gradient descent,每一步都要访问整个数据集）：

随机梯度下降（stochastic gradient descent，每个样本进行一次更新）:

随机梯度下降比批处理梯度下降收敛更快，当数据集比较大时，随机梯度下降优于批处理梯度下降。

2.正规方程组

现在讨论第二种最小化 J 的方法。

2.1矩阵导数

对一个由m*n阶矩阵映射到实数的函数：

，f对A的导数为：

例如，假设A=

,并且函数 f:

为：

得到：

矩阵的迹：

定义：对于n阶方阵A，

对于实数a来说，tra = a.

性质：

trAB = trBA

trABC = trCAB = trBCA

trA =

tr(A+B) = trA + trB

tr aA = atrA

2.2 最小二乘法回顾

给定训练集，设计矩阵X定义为：

由于，

再有，

又因为，

因此，

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部