您的位置:首页 > 其它

线性回归分析

2014-08-04 20:01 232 查看
线性回归分析
历史背景

英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现

儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。

也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。

目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

两变量之间的关系

(1)函数关系:当自变量取值一定时,因变量取值由它唯一确定。————确定关系。

(2)相关关系:当自变量取值一定时,因变量的取值带有一定的随机性。(例子:一块农田的水稻产量与施肥量之间的关系)————不确定关系。

这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。 但它们之间存在明显的相互关系(称为相关关系),又是不确定的。

——————————————————————————————————————————————————————————————————————————————

回归分析:

定义1:是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。

定义2:对具有相关关系的两个变量进行统计分析的方法叫回归分析。

1)回归分析本质:寻找相关关系中非确定性关系的某种确定性。

2)回归分析的意义:相关关系到处存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系则是一种非常普遍关系。研究和学习相关关系,不仅可以使我们能够处理更为广泛的数学问题,还可以使我们对函数关系的认识再上升到一个新的高度。

一. 一元线性回归

1.一元线性回归是研究一个自变量与一个因变量的统计关系。

例:人均收入X 与人均食品消费支出 Y 的散点图的关系如图。

这两个变量之间的不确定关系,可以用下式表示:

式中:

人均食品消费支出Y是被解释变量;

人均收入X是解释变量;

b1,b2是待估计参数;

u 是随机干扰项,且与 X 无关,它反映了 Y 被 X 解释的不确定性。

如果随机干扰项 u 的均值为 0,对上式求条件均值,有

反映出从“平均”角度看,是确定性关系。

线性回归的任务:

就是用恰当的方法,估计出参数 b1, b2 ,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。

如果把X,Y的样本观测值代到线性回归方程中,就得到

从重复抽样的角度看, Xi,Yi也可以视为随机变量。

高斯基本假设

对于线性回归模型

高斯基本假设如下:

(1) ui 为随机变量 ( 本假设成立, 因为我们研究就是不确定关系).

(2) E(ui) =0, 随机干扰项的期望值等于零(本假设成立, 如果其均值不是零, 可以把它并入到 b1 中).

(3) Var(ui) =s2u
, 随机干扰项的方差等于常数(本假设有可能不成立, 以后讨论不成立时如何处理).

(4) E(uiuj)=0 (i¹j) 随机干扰项协方差等于零(本假设有可能不成立, 以后讨论不成立时如何处理).

(5) ui服从 N(0, s2u
)分布;

(6) E(Xiuj)=0, 对Xi 的性质有两种解释:

a. Xi视为随机变量, 但与uj无关, 所以(6)成立.

b. Xi视为确定型变量, 所以(6)也成立.

普通最小二乘法(OLS)

设线性回归模型

其中 为b1, b2 的估计值, 则Y 的计算值Ŷ, 可以用下式表达:

所要求出待估参数 , 要使 Y 与其计算值Ŷ之间的“误差平方和”最小. 即: 使得

最小.

为此, 分别求Q 对 求偏导, 并令其为零:

由上两式, 就可求出待估参数的值.

所求参数的计算公式

二. 多元线性回归

本节要研究一个被解释变量 (因变量) , 多个解释变量(自变量)的线性模型, 即

基本假设:

(1) u 为随机变量向量 ;

(2) E(u) =0;

(3) cov(u) =E(uuT) = s2u In (包含了两个其本假设:一是不存在序列相关,即
i¹j 时, cov(ui, uj)=E(uiuj)=0;二是具有同方差性(齐次方差性), 即Var(ui) =s2u
).

(4) u ~ N(0, s2u In )

(5) E(XTu) =0 , 或者, X 为确定矩阵

(6) 秩 r ( X ) = k, ( k<n)

——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

reference:
http://wenku.baidu.com/view/6739eed026fff705cc170a19.html### http://wenku.baidu.com/link?url=9eoVcWGLP__OgdxHvRoF7EE4znaohXj34QYVQ-_upZy3kB3PrIOhyRxOPeBWkDcqWsXwmZ7SW5RH8nu0Ug_01N0hhdJ47v9vB_P9KVar23y
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: