线性回归介绍之七——回归诊断
2014-03-28 14:59
330 查看
如果你看的书多了,可能经常会发现回归诊断或模型诊断这样的名词,这里的诊断跟医学里的诊断有所不同。什么是模型诊断?其实它的主要目的就是为了看一下我们辛辛苦苦计算所得的方程或模型是不是合理?是不是有符合实际?是不是需要重新分析?
对于线性回归而言,回归诊断需要处理的问题主要是看是不是有共线性?有没有异常点存在?以及前面所说的是否符合线性回归的使用条件。
什么是共线性?这是个更为常见的名词,共线性也叫多重共线性(Multicollinearity),其实可以简单地理解为自变量之间的相关性太强。比如,要分析肺活量与身高和体重的关系,肺活量为因变量,身高和体重为自变量。如果身高和体重之间的相关性很强,就可以认为他们之间存在共线性。
共线性的诊断可以用容许值(tolerance)、方差膨胀因子(VIF)、条件指数(condition index)等指标来体现。最常用的是条件指数,这里想提醒一下,条件指数有多个,最大的条件指数叫做条件数(condition number)。我曾在某医学统计论坛上见到有人对这两个指标的关系大惑不解,故这里提及一下。
什么是异常点(outliner)?从下面这幅图就可以有个感性认识了。
[align=center][/align]
可以发现,有一个点远远脱离其它点,这就是异常。从它的字面意思来看,outliner,实际上就是脱离了线性,与其他的点不合群。
既然讲到了这里,就顺便再提一个名词,叫做杠杆点(leverage),杠杆点属于异常点,但是并不是所有的异常点都是杠杆点。只有那些对方程有影响的点才叫杠杆点。这个也可以从它的字面意思理解。什么是杠杆?就是说,我靠这一个点就能撬起地球,可见这一个点的影响之大。影响小了,就不叫杠杆点了,只能叫做异常点。比如上面图中最后一个点,实际上就是杠杆点,如果把这个点去掉,图形应该是这样的:
比较一下这两个图,下面这个其实斜率小多了,或者说,第一个图更加向上斜,因为被那个杠杆点给拉上去了。就这一个点,就改变了整个的图形,这就是杠杆点的意义。
至于其它是否满足线性回归使用条件的诊断,前面已经提到过了,这里不再赘述。
最后想说一句,统计分析不是简单的将数字放入统计软件,出来结果就算了。而是需要精雕细琢,计算机中有一句话叫做“garbage in,garbage out”,统计中也是一样。关键的在于自己对统计学的理解,决不能一味地依靠统计软件,统计软件不会帮助你分析该用什么方法,也不会跟你说你的数据是不是符合使用条件。统计软件所能做的只是给你一堆结果,至于结果合不合理,结果应该怎么看,只能靠你自己。
对于线性回归而言,回归诊断需要处理的问题主要是看是不是有共线性?有没有异常点存在?以及前面所说的是否符合线性回归的使用条件。
什么是共线性?这是个更为常见的名词,共线性也叫多重共线性(Multicollinearity),其实可以简单地理解为自变量之间的相关性太强。比如,要分析肺活量与身高和体重的关系,肺活量为因变量,身高和体重为自变量。如果身高和体重之间的相关性很强,就可以认为他们之间存在共线性。
共线性的诊断可以用容许值(tolerance)、方差膨胀因子(VIF)、条件指数(condition index)等指标来体现。最常用的是条件指数,这里想提醒一下,条件指数有多个,最大的条件指数叫做条件数(condition number)。我曾在某医学统计论坛上见到有人对这两个指标的关系大惑不解,故这里提及一下。
什么是异常点(outliner)?从下面这幅图就可以有个感性认识了。
[align=center][/align]
可以发现,有一个点远远脱离其它点,这就是异常。从它的字面意思来看,outliner,实际上就是脱离了线性,与其他的点不合群。
既然讲到了这里,就顺便再提一个名词,叫做杠杆点(leverage),杠杆点属于异常点,但是并不是所有的异常点都是杠杆点。只有那些对方程有影响的点才叫杠杆点。这个也可以从它的字面意思理解。什么是杠杆?就是说,我靠这一个点就能撬起地球,可见这一个点的影响之大。影响小了,就不叫杠杆点了,只能叫做异常点。比如上面图中最后一个点,实际上就是杠杆点,如果把这个点去掉,图形应该是这样的:
比较一下这两个图,下面这个其实斜率小多了,或者说,第一个图更加向上斜,因为被那个杠杆点给拉上去了。就这一个点,就改变了整个的图形,这就是杠杆点的意义。
至于其它是否满足线性回归使用条件的诊断,前面已经提到过了,这里不再赘述。
最后想说一句,统计分析不是简单的将数字放入统计软件,出来结果就算了。而是需要精雕细琢,计算机中有一句话叫做“garbage in,garbage out”,统计中也是一样。关键的在于自己对统计学的理解,决不能一味地依靠统计软件,统计软件不会帮助你分析该用什么方法,也不会跟你说你的数据是不是符合使用条件。统计软件所能做的只是给你一堆结果,至于结果合不合理,结果应该怎么看,只能靠你自己。
相关文章推荐
- 通俗易懂地介绍梯度下降法(以线性回归为例,配以Python示例代码)
- 线性回归介绍之一
- 线性回归介绍之二——“线性”的理解
- 线性回归介绍之三——线性回归的使用条件
- 线性回归介绍之四——如何做散点图
- 线性回归介绍之五——回归与方差分析的关系
- 线性回归介绍之六——再谈回归与方差分析的关系
- 线性回归介绍之八——回归方程的评价
- 线性回归介绍之九——多重线性回归
- 线性回归介绍之十——多因素分析策略
- 线性回归—求解介绍及回归扩展
- 机器学习相关内容介绍,包括有监督、无监督学习,线性回归分类问题等
- 机器学习:线性回归(Linear Regression)小项目
- 线性回归, 逻辑回归和线性分类器
- 多元线性回归
- 线性回归的补充与变量归一化
- Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS
- 机器学习(1):线性回归和逻辑回归
- 初学ML笔记N0.1——线性回归,分类与逻辑斯蒂回归,通用线性模型
- OK6410开发板资源介绍---嵌入式回归第一篇