您的位置：首页 > 其它

线性回归基础知识

2017-02-13 14:01 162 查看

理解什么是线性回归

线性回归也被称为最小二乘法回归（Linear Regression, also called Ordinary Least-Squares (OLS) Regression）。它的数学模型是这样的：

y = a+ b* x＋e

其中，a被称为常数项或截距；b被称为模型的回归系数或斜率；e为误差项。a和b是模型的参数。

当然，模型的参数只能从样本数据中估计出来：

y'= a' + b'* x

我们的目标是选择合适的参数，让这一线性模型最好地拟合观测值。拟合程度越高，模型越好。

模型估计出来后，我们要回答的问题是：

1. 我们的模型拟合程度如何？或者说，这个模型对因变量的解释力如何？（R2）

2. 整个模型是否能显著预测因变量的变化？（F检验）

3. 每个自变量是否能显著预测因变量的变化？（t检验）

SSA代表由自变量x引起的y的离差平方和，即回归平方和，代表回归模型的解释力；SSE代表由随机因素引起的y的离差平方和，即剩余平方和，代表回归模型未能解释的部分；SST为总的离差平方和，即我们仅凭y的平均值去估计y时所产生的误差。

用模型能够解释的变异除以总的变异就是模型的拟合程度：

R2=SSA/SST=1-SSE

R2（R的平方）也被称为决定系数或判定系数。

第二个问题，我们的模型是否显著预测了y的变化？

假设y与x的线性关系不明显，那么SSA相对SSE占有较大的比例的概率则越小。换句话说，在y与x无线性关系的前提下，SSA相对SSE的占比越高的概率是越小的，这会呈现一定的概率分布。统计学家告诉我们它满足F分布，就像这样：

如果SSA相对SSE占比较大的情况出现了，比如根据F分布，这个值出现的概率小于5%。那么，我们最好是拒绝y与x线性关系不显著的原始假设，认为二者存在显著的线性关系较为合适。

第三个问题，每个自变量是否能显著预测因变量的变化？换句话说，回归系数是否显著？

回归系数的显著性检验是围绕回归系数的抽样分布（t分布）来进行的，推断过程类似于整个模型的检验过程，不赘言。

实际上，对于只有一个自变量的一元线性模型，模型的显著性检验和回归系数的检验是一致的，但对于多元线性模型来说，二者就不能等价了。
from：https://sanwen8.cn/p/3cbCi2d.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航