您的位置:首页 > 其它

两个角度看岭回归 -- 方差扩大 + 2范数惩罚

2015-10-21 17:13 155 查看
 

在回归分析中最小二乘法是最常用的方法,使用最小二乘法的一个前提是|X'X|不为零,即矩阵X'X非奇异,当所有变量之间有较强的线性相关性时,或者变量之间的数据变化比较小或者部分变量之间有线性相关性时,矩阵X'X的行列式比较小,甚至趋近于0,一般在实际应用中处理:当<0.01时常被称为病态矩阵,它表明最小二乘法并非在各方面都尽善尽美,因为这种矩阵在计算过程中极易造成约数误差,因此得到的数据往往缺乏稳定性和可靠性。

岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。

线性回归分析的正规方程组可以写成:

                            X'Xb = X'Y                                        (1)

其最小平方解则为:

b = (X'X)-1X'Y                                     (2)

式(1)和(2)中的为自变量的n x m阶矩阵,X'为X的转置,(X'X)为对称的m x m方阵,通常称为信息矩阵(协方差矩阵),(X'X)-1为(X'X)的逆阵,Y为因变量的nx1向量,b为待解元,即回归系数的mx1向量,这里的n为观察值组数,m为待估计的回归系数个数。当|X'X|约等于0时,矩阵X'X为病态矩阵,这样最小偏二乘法就会产生较大的误差,b^是b的无偏估计,但很不稳定,在具体取值上与真值有较大的偏差,甚至有时会出现与实际经济意义不符的正负号。

如果我们在的主对角线元素上加上一个非负因子,即令:

                         b(k)=    (X'X + kIm) -1X'Y                  (3)

 

(Im为单位矩阵),那么b(k)和b有何不同呢(下文在这些统计数后均加标记(k),便于与最小二乘法,即k=0的统计数相区别)?最先研究这一问题的是Hoerl和Kennard以及Marquardt[5],他们的基本结论是:b(k)是k的非线性函数;k=0时,b(k)=b同为最小平方估计数;而后,随着k的增大,b(k)中各元素bi(k)的绝对值均趋于不断变小(由于自变数间的相关,个别bi(k)可能有小范围的向上波动或改变正、负号),它们对bi的偏差也将愈来愈大;如果k->∞,则b(k)->0。b(k)随k的改变而变化的轨迹,就称为岭迹,参见图1,岭迹图表明,的加入使成为回归系数的有偏估计数。



总结:

岭回归也是用于处理自变量之间高度相关的情形。只是跟主成分回归的具体估计方法不同。线性回归的计算用的是最小二乘估计法,当自变量之间高度相关时,最小二乘回归估计的参数估计值会不稳定,这时如果在公式里加点东西,让它变得稳定,那就解决了这一问题了。岭回归就是这个思想,把最小二乘估计里加个k,改变它的估计值,使估计结果变稳定。至于k应该多大呢?可以根据岭迹图来判断,估计这就是岭回归名称的由来。你可以选非常多的k值,可以做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定k值了,然后整个参数估计不稳定的问题就解决了。

 

=====================

带二范数惩罚的最小二乘回归

=====================

是的,岭回归就是一个带二范数惩罚的最小二乘回归,和带一范数惩罚的最小二乘回归LASSO有的一拼啊



                   
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: