您的位置:首页 > 其它

【斯坦福---机器学习】复习笔记之监督学习应用.梯度下降

2015-07-02 18:58 501 查看

本讲内容:

1.Linear regression(线性回归)

2.Gradient descent(梯度下降)

3.Normal equation(正规方程组)

supervised learning(监督学习):给定一组数据集,告诉算法正确的答案,经过训练,给定输入能够给出正确的输出。

开始一个监督学习的例子,房子面积和价格的关系:



给定这样的数据,怎样预测其他房子的价格?

引入一些符号:


表示输入变量,也叫做输入特性(本例中的居住面积)


表示输出或者说目标变量(本例中预测的价格)


表示训练样本




表示训练集

监督学习的流程如下图所示:



线性回归

为了使问题更加有趣,提供一个更加丰富的数据集,还知道房子的卧室数量:



假设y是x的一个线性函数:



假设X0=1,得到:


其中,n是输入变量的数目(不包括x0)。

为了表示



的距离,定义函数:



1 LMS 算法

我们需要求出使得

最小化的


考虑梯度下降算法,给定初值,反复更新

的值:



其中

是学习速度;

假设只有一个训练样本,则有:



对于单个样本,更新规则如下:



这个就是LMS更新规则(least mean squares,最小二乘法)

如果样本不止一个,需要修改更新的规则,

批处理梯度下降(batch gradient descent,每一步都要访问整个数据集):



随机梯度下降(stochastic gradient descent,每个样本进行一次更新):



随机梯度下降比批处理梯度下降收敛更快,当数据集比较大时,随机梯度下降优于批处理梯度下降。

2.正规方程组

现在讨论第二种最小化 J 的方法。

2.1矩阵导数

对一个由m*n阶矩阵映射到实数的函数:

,f对A的导数为:



例如,假设A=

,并且函数 f:

为:



得到:



矩阵的迹:

定义:对于n阶方阵A,


对于实数a来说,tra = a.

性质:

trAB = trBA

trABC = trCAB = trBCA

trA =


tr(A+B) = trA + trB

tr aA = atrA



2.2 最小二乘法回顾

给定训练集,设计矩阵X定义为:





由于,




再有,




又因为,


因此,

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: