您的位置:首页 > 其它

线性回归介绍之六——再谈回归与方差分析的关系

2014-03-28 14:59 225 查看
上一篇文章已经对方差分析和线性回归的关系进行了阐述,不过刚看到了一位朋友的留言提问,所以想针对这个问题继续谈一下二者的关系。

这一次主要是想结合一个实例来说明。比如有下面这样一个虚拟的例子:

组别数值
111.1
18.17
112.73
115.83
115.6
117.2
15.45
111.3
223.73
218.86
226.65
216.72
217.33
218.08
216.55
217.87
这里可以看到,总共有两个变量,组别肯定是自变量,而数值(不管是什么结果)就是因变量。因为分组是人为控制的,而数值是一个随机变量,是需要观察才能了解的。

这里的自变量只有两个值,即1和2,因变量则有不同的数值。一般来说,如果自变量的类别很少,可以考虑采用方差分析,而如果类别很多,则考虑采用线性回归。实际上,无论采用哪种方法,他们的结果都是一致的。这里用SAS对方差分析和线性回归的分析结果进行比较。

如果用方差分析,结果为F=14.28,P=0.002,两组有统计学差异。如果采用线性回归,结果为F=14.28,P=0.002,或t=3.78,P=0.002。结果表明组别对数值有影响。

可以发现,他们的F值是相同的,而且F值恰好是T值的平方。而P值是不变的。这些绝不是偶然。而是必然的联系。也许大家在学习统计学的过程中,并没有老师介绍方差分析和T检验的关系,这里既然讲到这里,就顺便提一句,方差分析的F值是t检验的t值的平方。如果还想进一步看他们的关系,仔细观察一下F分布和t分布的图形,一定会对大家理解二者的关系有所帮助。

至于到底选择什么模型,是方差分析还是线性回归,其实不必拘泥。如果我的分组变量有2组或3组4组,一般来说,采用方差分析的可能性大一些。如果分组变量(或自变量)的类别很多,比如7类8类等,可以考虑采用线性回归。但这不是绝对的,也跟例数有关。比如,分组变量只有4组,即1、2、3、4,但结果变量只有7个,那这时采用线性回归或许更好一些。如果分组变量有8组,即1-8,但结果变量有1000个,这是还是采用方差分析更好一些。具体选用哪一种方法都无所谓,关键是他们的结果都是一致的,总会得出相同的结论。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息