您的位置：首页 > 其它

第二课监督学习应用梯度下降

2016-09-03 20:38 357 查看

1. 最小均方误差算法

h(x) 为目标函数

θ 为参数parameters

xn为特征

n为特征个数

m为训练集的个数

则在线性假设下

h(x)=hθ(x)=θ0+θ1∗x1+θ2∗x2+...+θn∗xn

即

h(x)=hθ(x)=∑i=0nθi∗xi=ΘTX

根据训练集（training sets）求出Θ

其中一种方法为最小二乘方（LMS，least mean squares）：

minθ J(θ)

其中

J(θ)=12∑i=1n(hθ(xi)−yi)2

表示估计值与真实值之间的误差

计算求解θ的一种方法为梯度下降法：

考虑只有一个样本点时

重复对上式计算，直到θ值不变时，结果收敛。

其中，α为调整收敛速度大小的参数，该算法结果与初始值的设定有关，结果可能是局部最优解（local optimal）。在线性假设下，该结果为全局最优解。

将该方法拓展到对个训练对象时，有两种梯度下降方法，第一种叫做批量梯度下降(batch gradient descent)：