您的位置:首页 > 编程语言 > Java开发

一元线性回归的详解及其Spss和Java的实现 之 理论说明

2017-05-15 21:43 260 查看

不要过于教条地对待研究的结果,尤其当数据的质量受到怀疑时。

本文主要对统计学中最常见的一元线性回归内容进行系统全面的讲解,以及相应案例的Excel Spss 和Java的相关实现。

准备知识 : 对概率中随机变量的期望、方差、协方差、和相关系数的定义、性质和简单的计算。可参考期望,方差,协方差及相关系数

[注释:]上述参考文档中在性质3中线性组合的方差中书写错误: 正确如下:

var(ax+by)=a2var(x)+b2var(y)+2abcov(x,y).

参考资料 :贾俊平统计学第6版.

一元线性回归内容详解

1.1 变量间的关系

变量与变量之间的关系呢可以分为两种:

(1)函数关系;

(2)相关关系;

函数关系:设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,也就是,当x取某个值时,y依确定的关系取相应的值,则称y是x的函数:y=f(x), x为自变量,y为因变量。

相关关系 :当变量之间的这种确定关系变为不确定的数量关系,就是相关关系。

相关关系的特点:一个变量的取值并不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系的不确定性没法用函数关系来表示,但也不是无任何规律可寻。

1.2 相关关系的描述和测度

相关分析要解决的问题:

(1)变量之间是否存在关系;

(2)如果存在关系,他们之间是什么样的关系;

(3)他们之间的关系强度如何;

(4)如何确定用样本所反映的变量之间的关系可以代替总体变量之间的关系。

前提假设:

(1)两个变量之间是线性关系;

(2)两个变量都是随机变量。

步骤 :

(1)绘制散点图来判断变量之间的关系形态,如果是线性关系,可以用相关系数来测度两个变量的关系强度。

(a)正线性相关;

(b)负线性相关;

(c)完全正线性相关;

(d)完全负线性相关;

(e)非线性相关;

(f)不相关。

(2)对相关系数进行显著性检验,以判断样本所反映的关系能否用来代表两个变量总体上的关系。

总体相关系数 ρ :根据总体数据计算的,称为总体相关系数;

样本相关系数 r :根据样本的数据计算的,称为样本相关系数;

样本相关系数计算公式 :

r=∑(x−x¯)(y−y¯)∑(x−x¯)2∑(y−y¯)2−−−−−−−−−−−−−−−−−−√

公式简化:

r=∑(x−x¯)(y−y¯)∑(x−x¯)2∑(y−y¯)2−−−−−−−−−−−−−−−−−−√=∑(xy−x¯y−yx¯+x¯y¯)∑(x2+x¯2−2xx¯)−−−−−−−−−−−−−−√∑(y2+y¯2−2yy¯)−−−−−−−−−−−−−−√=∑xy−x¯∑y−y¯∑x+∑x¯y¯∑x2+∑x¯2−2x¯∑x−−−−−−−−−−−−−−−−−−√∑y2+∑y¯2−2y¯∑y)−−−−−−−−−−−−−−−−−−−√=∑xy−nx¯y¯−ny¯x¯+nx¯y¯∑x2+nx¯2−2nx¯2−−−−−−−−−−−−−−−√∑y2+ny¯2−2ny¯2)−−−−−−−−−−−−−−−−√=n∑xy−∑x∑yn∑x2−(∑x)2−−−−−−−−−−−−−√n∑y−(∑y)2−−−−−−−−−−−−√

参考两个变量相关系数计算公式 :

Corr(x,y)=cov(x,y)var(x)var(y)−−−−−−−−−−√=E[(x−E(x))(y−E(y))]E[(x−E(x))2]E[(y−E(y))2]−−−−−−−−−−−−−−−−−−−−−−√

相关程度划分:

我们知道相关系数的取值在−1≤r≤1之间。

(a)当|r|≥0.8:高度相关;

(b)当0.5≤|r|<0.8:中度相关;

(c)当0.3≤|r|<0.5:低度相关;

(d)当|r|<0.3:极度弱相关,可视为不相关。

1.3 相关系数的显著性检验

一般情况下,总体的相关系数是未知的,通常是根据样本的相关系数来近似估计的。但是由于样本的相关系数是根据样本数据计算出来的,它收到抽样的波动的影响。由于抽取的样本不同,r的取值自然也不同,因此这个r是一个随机变量。能否根据样本相关系数说明总体的相关程度呢?这就需要考虑到样本相关系数的可靠性,也就是进行显著性检验。

1.3.1 r的抽样分布:

要对r的显著性进行检验,自然就要考虑到r的抽样分布。通常情况下我们不采用正态检验,因为我们知道当总体的相关系数ρ为较大的正值时,r呈现左分布(由于样本的r是围绕总体的ρ左右波动,并且r的取值在−1≤r≤1);当总体的相关系数ρ为较大的负值时,r呈现由分布。只有当总体的相关系数ρ=0,并且样本容量n很大时,r呈现正态分布。因此在实际中,我们不用正态检验,而是采用 R.A.Fisher提出的 t 分布检验(钟型线样子),该检验适合于小样本,也适用于大样本。

步骤:

(1)提出假设:

H0:ρ=0; H1:ρ≠0;

(2)计算检验的统计量

t=|r|n−21−r2−−−−−−√≈t(n−2);

(3)进行决策。根据跟定的显著性水平 α 和自由度 df=n−2 查 t 分布表,查出 tα2(n−2) 的临界值,进行决策。

2.1 一元线性回归模型

咱们这里主要说的是一元的 线性的 回归模型,也就是 因变量(dependent variable)y 和自变量(independent variable) x之间的关系。

2.1.1 回归模型:

y=β0+β1x+ε

解释(重点理解:有助于理解后面的判定系数问题):

在一元线性回归中,y 是 x 的线性函数 (β0+β1x)部分 加上 误差项 ε。 其中:(β0+β1x)部分 反应了由于 x 的变化而引起的 y 的线性变化; ε 反应了除了 x 和 y 线性关系之外的随机因素对 y 的影响。是不能由x 和 y 线性关系所解释的变异性。

至于为什么不把除了x影响y的全部变量引入到模型中,而是用误差项 ε 来代替,读者可以参考 Gujarati在《计量经济学》中给出的7条解释。

回归模型中重要假设:

(1)误差项 ε 的期望 E(ε)=0, 并且,对于所有的x, ε的方差 σ2 是相同的。即误差项 ε 是一个服从正态分布的随机变量,且独立,即 ε=N(0,σ2).

2.1.2 回归方程

一元线性回归方程的形式:

E(y)=β0+β1x

2.1.3 估计的回归方程

如果回归方程中的参数 β0和β1 已知,对于一个给定的 x 值,利用回归方程公式就可以计算出y的期望值。 但是他们是未知的,我们就需要用样本的数据去估计它们,用样本的统计量β0^和β1^ 代替回归方程中的未知参数。这是就d得到了估计的回归方程:

一元线性回归,估计的回归方程的形式:

E(y)=β0^+β1^x

2.2.1 参数的最小二乘估计

思想来源:对于第 i 个 x 值,估计的回归方程可表示为:

yi^=β0^+β1^xi

那么对于 x和y 的 n 对观测值,用于描述其关系的直线也就有多条,究竟用那条直线来代表这两个变量之间的关系,需要有个明确的规则。K.Gauss 提出用最小二乘法,也就是让样本的实际观测值和估计回归方程之间距离的平方和最小(离差平方和最小)来估计参数β0^和β1^。

由最小二乘法:

Q=∑(yi−yi^)2=∑(yi−β0^+β1^xi)2

到达最小,对Q 求相应于 β0^和β1^ 的偏导数

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂Q∂β^0=−2∑i=1n(yi−β^0−β^1xi)=0∂Q∂β^1=−2∑i=1nxi(yi−β^0−β^1xi)=0

化简求解:

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∑i=1nyi=nβ^0+β^1∑i=1nxi∑i=1nxiyi=β^0∑i=1nxi+β^1∑i=1nx2i

简单的高斯消元后,我们可得:

⎧⎩⎨⎪⎪⎪⎪⎪⎪β^1=n∑ni=1xiyi−∑ni=1xi∑ni=1yin∑ni=1x2i−(∑ni=1xi)2β^0=y¯−β^1x¯

由最后的结果表达式,我们可以看出,回归直线 yi^=β0^+β1^xi 通过点 (x¯,y¯).

2.3 回归直线的拟合优度

回归直线与各个观测点的接近程度称为回归直线对护具的拟合优度(goodness of fit).

2.3.1 判定系数

判定系数是对估计的回归方程拟合优度的度量。

解释:(重要理解)因变量 y 的取值是不同的, y 取值的这种波动称为变差。变差的产生来源于两个方面:

(1)自变量 x 的取值不同造成的;

(2)除了自变量 x 以外的其他因素的影响。

对于一个具体的观测值变差的大小可以用实际观测值 y 和其均值 y¯ 之差 (y−y¯)来表示。 那么n次的观察值的总变差可以由这些离差的平方和来表示,即:

总平方和 (total sum of squares)SST

SST=∑(yi−y¯)2

因为我们知道估计回归方程与y=y¯ 相交于 (x¯,y¯),所以 yi−y¯ 可以由两部分组成:

yi−y¯=(yi−yi^)+(yi^−y¯)

因此:

∑(yi−y¯)2=∑(yi−yi^)2+∑(yi^−y¯)2+2∑(yi−yi^)(yi^−y¯)

Due to the fact that 2∑(yi−yi^)(yi^−y¯)=0

∑(yi−y¯)2=∑(yi−yi^)2+∑(yi^−y¯)2

总平方和SST=残差平方和SSE+回归平方和SSR

(1)SST=∑(yi−y¯)2 总平方和(total sum of squares) 反应的是总变差的平方和,也就是时间观测值和平均值之间的变差的平方和

(2)SSR=∑(yi^−y¯)2 回归平方和(sum of quares of regression) 反应的是 y 的总变差中,由 x与y 之间的线性关系引起 y的变化部分,它是可以由回归直线来解释的 y的变差部分。

(3)SSE=∑(yi−y¯)2 残差平方和(sum of squares of error) 反应的是除由 x与y 之间的线性关系引起 y的变化部分外,其他因素对 y 的变差的作用。

综上得: 回归直线拟合的好坏取决于 SSR 和SSE 的大小,SSE越小 说明观测点越靠近直线,因此我们可以用SSR在SST中的占比来判断你和的好坏:

判定系数 R2 (coefficient of determination)

R2=SSRSST=1−SSESST=∑(yi^−y¯)2∑(yi−y¯)2

SSR=∑(y^i−y¯)2=∑[(β^0+β^1xi)−(β^0+β^1x¯)]2=β^21∑(xi−x¯)2=β^1∑(xi−x¯)(yi−y¯)

R2=SSRSST=β^1∑(xi−x¯)(yi−y¯)∑(yi−y¯)2=⎡⎣⎢∑(xi−x¯)(yi−y¯)∑(xi−x¯)2−−−−−−−−−√⋅∑(yi−y¯)2−−−−−−−−−√⎤⎦⎥2

至此,熟悉吧,熟悉吧,中括号里面的表达式恰恰就是相关系数的表达式。

R2=r2

一定要注意相关系数额平方才是变异系数,例如r=0.7时说明两个变量的相关性已经很高 但是R2=0.7∗0.7=0.49 才接近0.5

2.3.2估计标准误差

我们知道残差平方和可以说明实际观测值yi 与回归估计值 yi^ 之间的变异程度。对于一个变量的诸多观测值,可以用标准差来测度各观测值在其平均数周围额分散程度。与之类似的是一个量可以用来测度各个实际观测点在直线周围的散步情况,这个量就是估计标准误差,

估计标准误差,也就是 估计量的标准差,简称标准误差(standard error of estimate) se 是均方残差(MSE)的平方根。

se=SSEn−2−−−−−√=MSE−−−−−√

其中,自由度为 n−2 是因为我们在计算 SSE时,必须先求出 β0^和β1^, 这两个估计值就是附加给SSE的两个约束条件,因此在计算SSE是,只有 n−2 个独立的观测值,而不是n个。

2.4 显著性检验

回归的主要目的是根据所建立的估计方程来自变量 x 来估计或预测因变量 y 的取值。那么根据样本数据得出的线性回归方程是否真实地反映了变量 x和y 之间的关系。回归分析中的显著性检验主要包括两个方面:

(1)线性关系的检验;

(2)回归系数的检验。

2.4.1 线性关系的检验

线性关系检验是检验自变量 x 和因变量 y 之间的线性关系是否显著,或者,他们之间能否用一个线性模型 y=β0+β1x+ε 来表示。

均方回归 MSR 自由度为 k (k为自变量个数,)在一元线性回归中,自由度是1,可以参考前面 SSR 的推到公式。

均方残差 MSE 自由度为 n−k−1 (k为自变量个数,)在一元线性回归中,自由度是n-2,可以参考前面 SSR 的推到公式。

步骤:

(1)提出假设

H0:β1=0:两个变量之间线性关系不显著。

(2)构造统计量

F=SSR/1SSE/(n−2)=MSRMSE≈F(1,n−2)

(3)作出决策。(由F分布是左高右长尾型的,)查表做决策这里就说了大家都会。

2.4.2 回归系数的检验

在线性关系的检验中,如果回归系数 β1≠0 也不能可能就得出两个变量之间存在线性关系的结论,要看这种关系是否具有统计意义上的显著性。因为 β1^,和β0^ 是根据最小乘法算出来的,当抽取的样本不同时,其值也不同,因此它俩也是一个随机变量。有自己的分布,统计证明: β1^ 服从正态分布。

期望:E(β1^)=β1

标准差:σβ1^=σ∑x2i−1n(∑xi)2√

由于误差项的标准差 σ 未知,因此我们用估计标准误差 se代替:

sβ1^=se∑x2i−1n(∑xi)2−−−−−−−−−−−−−−√

步骤:

(1)提出假设

H0:β1=0;H1:β1≠0;

(2)构造统计量

t=β1^−β1sβ1^=β1^sβ1^≈t(n−2)

(3)作出决策。(由t分布是钟型分布,)查表做决策这里就说了大家都会。

注释:在一元线性回归中,自变量只有一个,上面介绍的线性关系 F检验 和回归系数的 t 检验是等价的,也就是说,如果 H0:β1=0 被 t检验拒绝了,它自然会被 F检验所拒绝。但是在多元线性回归中(下个博客详解)这两种检验的意义是不同的,F 检验只是用来检验总体回归关系的显著性,而 t 检验是检测各个回归系数的显著性。

2.5回归分析结果评估

只说最重要的一点:

关于误差项 ε 的正态分布是否成立,因为我们在对线性关系进行 F 检验和 t 检验时,都要求误差项服从正态分布,否则,所用的检验程序将是无效的。检验 ε 正态性的简单方法是画出残差的直方图或者概率图。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息