您的位置:首页 > 其它

线性回归介绍之五——回归与方差分析的关系

2014-03-28 14:58 411 查看
如果是初学者,看到这个题目一定有点惊奇:线性回归和方差分析还有关系?其实这不怪他们,应该是怪统计学教材以及统计教师。几乎所有的医学统计学教材中都把方差分析和线性回归分为独立两章,这倒不要紧,但是却没有专门的一章把它们的关系讲透,以至于许多学生学了很久都只能获得零零散散的珠子,缺乏一条将他们穿起来的线。这篇文章的目的就是通过一般线性模型(general
linear model)的介绍,将方差分析与线性回归串起来。

这里仍然只是以单因素的线性回归为例,因为这样容易看懂。

对于随机设计的方差分析,其实如果大家注意一下,就应该发现,它们其实一共是两个变量,一个是分组变量,一个是分析的变量。比如,比较3种药物的降压效果,药物就是分组变量,有3个取值;血压值就是分析的变量。当然,对于方差分析来讲,分析变量一般都是连续型资料,而分组变量一般都是分类资料。

如果再注意看一下线性回归的形式,也应该发现,最简单的线性回归也是两个变量,一个是因变量或结局变量,一个是自变量或原因变量。比如体重对肺活量的影响。对于线性回归来讲,自变量和因变量都是连续型资料。

如果将这线性回归中的两个变量与方差分析中的两个变量比较一下,可以发现他们是一致的。方差分析中的分析变量实际上就是线性回归中的因变量,方差分析中的分组变量就是线性回归中的自变量。这两个方法的目的都是为了看自变量(分组变量)对因变量(分析变量)的影响。如上面所说的,目的就是为了看药物对血压的影响,体重对肺活量的影响。

比较一下,可以发现,线性回归和方差分析的结果变量是一样的,都是连续型资料,而自变量就不一样了,方差分析中是分类资料,而线性回归中是连续型资料。但他们都可以统一到一个大的范畴中,即一般线性模型。

其实如果把方差分析的形式改一下,大家可能就更容易理解了。一般的方差分析的数据大都列成这样的形式:

ABC
121632
141723
151728
131931
142128
如果A、B、C分别用1、2、3来表示,列成下面的格式:

yx
121
141
151
131
141
162
172
172
192
212
323
233
283
313
283
怎么样,这种形式跟线性回归的形式差不多了吧?y就是因变量,x就是自变量。唯一与线性回归不同的地方是:线性回归中的x和y是一一对应的,而这里的x和y是一对多的,即1个x对应多个y值,但这不影响分析。其实即使在线性回归中,偶尔也会出现一对多的现象的。比如体重对肺活量的影响,如果有好几个人体重相同而肺活量不同,就出现了一对多的现象。这就跟方差分析更像了。

最后加点总结性的、理论性的东西,一般线性模型的形式大致可以这样:

y=α+βx+ε,

这个其实大家都应该很熟悉了,在统计教材中的线性回归章节中一般都有这个公式。这里的y就是因变量,x就是自变量,但是这里需要注意的就是,x是分类变量的时候,就变成了方差分析的形式了,当x是连续型变量的时候,就变成了线性回归的形式了。

总之,正如哲学中内容与形式的原理,一般线性模型是内容,x的变化则显示了其不同的形式,但无论如何,它们的内容都是一般线性模型。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息