您的位置:首页 > 其它

线性回归系列(1)-最小二乘法

2014-06-18 11:02 183 查看
1.曲线拟合问题

如果已知函数f(x)在若干点xi(i=1,2,…,n)处的值yi,便可根据插值原理来建立插值多项式作为f(x)的近似。但在科学实验和生产实践中,往往节点上的函数值是由实验或观测得到的数据,这些函数值不可避免地带有测量误差,如果要求所得的近似函数曲线精确无误地通过所有的点(xi,yi),就会使曲线保留着一切测试误差。

此外,由实验或观测提供的数据个数往往很多,如果用插值法,势必得到次数较高的插值多项式,这样计算起来很烦琐,缺乏实用价值。

希望从给定的数据(xi,yi)出发,在某个函数类中寻求一个近似函数φ(x), 来拟合这组数据。要求所得的近似曲线能最好的反映数据的基本趋势,如图所示。



曲线拟合方法,也就是求一条曲线,使数据点均在离此曲线的上方或下方不远处, 它既能反映数据的总体分布,又不至于出现局部较大的波动, 能反映被逼近函数的特性,使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到最小.
设函数y=f(x)在m个互异点的观测数据为



求一个简单的近似函数φ(x),使之“最好”地逼近f(x),而不必满足插值原则。这时没必要取φ(xi) = yi, 而要使 i=φ (xi)yi 总体上尽可能地小。这种构造近似函数 的方法称为曲线拟合,称函数y=φ(x)为经验公式或拟合曲线。
2.最小二乘法概念
曲线拟合不要求近似曲线严格过所有的数据点,但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能地小。



残差的计算方法一般有三种,其公式分别如下:
(1).


(2).


(3).


第3种计算方式即为最小二乘原则,采用最小二乘缘法选取拟合曲线的方法称为最小二乘法。

3.最小二乘法的推导



是被解释变量的第i次样本观测值,

是相应的第i次样本估计值。将



之间的偏差记作





为第i次样本观测值的残差。

使全部样本观测值的残差平方和达到最小,即



来确定未知参数

估计量的准则,称为最小二乘准则。

未知参数

的最小二乘估计量


的计算公式为



设残差平方和



其中



它是N*1阶残差列向量。

为了得到最小二乘估计量

,我们对上式进行极小化



移项后,得正规方程组





存在,用

左乘正规方程组两边,得

的最小二乘估计量公式

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: