数据挖掘算法(四)--线性回归
2017-10-08 21:32
1106 查看
1、简单线性回归
简单线性回归是一个线性回归模型。一个独立变量和一个因变量,目的是找到的因变量和自变量之间的线性函数,尽可能准确地,预测因变量的值作为自变量的函数。这是常见的做法是:利用最小二乘方法使得残差(数据集的点和拟合线之间的垂直距离)最小化。找到残差最小时的拟合曲线即为我们要找的结果。假设拟合曲线为:
y=β0+β1x
这样我们的目标就是找到斜率β1和y轴截距β0,换成数学表达式就是找到β0和β1使得下面的表达式最小:
min∑i=1n{yi−(β0+β1xi)}2
下面是求解过程:
=∑i=1n{yi−(β0+β1xi)}2
=∑i=1n{yi−β1xi−β0}2
令y∗=yi−β1xi可以将上式简化为
=∑i=1n{y∗−β0}2
要使得上式最小化,只有β0等于y∗的平均值的时候才能使得上式最小。
β0=∑y∗in=∑(yi−β1xi)n=y¯−β1x¯
将β0代入原始式子得到
=∑i=1n{yi−β1xi−y¯+β1x¯}2
=∑i=1n{yi−y¯−(xi−x¯)β1}2
令yi^=yi−y¯和xi^=xi−x¯
=∑i=1n{yi^−xi^β1}2
同上面β0 的道理,xi^β1等于yi^的均值时上式最小,这样的得到β1的解:
β1=∑yi^xi^∑xi^2=∑(yi−y¯)(xi−x¯)∑(xi−x¯)2
β1=∑(yi−y¯)(xi−x¯)/(n−1)∑(xi−x¯)2/(n−1)
β1=cov(y,x)cov(x,x)=cov(y,x)var(x)
2、线性回归
给定一个数据集{yi,xi1,...,xip}ni=1 ,线性回归模型主要是为了找到变量yi 和向量X的线性关系。This relationship is modeled through a disturbance term or error variable εi — an unobserved random variable that adds noise to the linear relationship between the dependent variable and regressors. Thus the model takes the form
待续。。。
参考资料:
1、https://en.wikipedia.org/wiki/Simple_linear_regression
2、https://en.wikipedia.org/wiki/Linear_regression
相关文章推荐
- [Matlab][数据挖掘算法][线性回归]
- 数据挖掘算法学习日志(一)之线性回归
- 数据挖掘算法:线性回归深度剖析
- 数据挖掘回顾九:回归算法之 模型树
- 数据挖掘经典算法--CART算法分类和回归树
- MADlib——基于SQL的数据挖掘解决方案(12)——回归之广义线性模型
- 数据挖掘十大经典算法(十) CART: 分类与回归树
- 数据挖掘十大经典算法--CART: 分类与回归树
- 数据挖掘笔记-分类-回归算法-梯度上升
- 数据挖掘核心算法之一--回归
- 数据挖掘,筛选,补充的广义线性模型的---- LASSO 回归
- 数据挖掘十大经典算法--CART: 分类与回归树
- 数据挖掘十大经典算法(10) CART: 分类与回归树
- 数据挖掘十大经典算法--CART: 分类与回归树
- 【python数据挖掘课程】十九.鸢尾花数据集可视化、线性回归、决策树花样分析
- 数据挖掘算法逻辑回归-R实现
- 数据挖掘笔记-分类-回归算法-最小二乘法
- 数据挖掘10大算法(8)--CART: 分类与回归树
- 数据挖掘十大经典算法(10) CART: 分类与回归树
- 【数据挖掘与R语言笔记】预测海藻数量(二)线性模型和回归树模型