您的位置：首页 > 其它

【机器学习--线性回归01】线性回归模型

2018-03-06 23:01 337 查看

等了很久，终于进入机器学习环节了。开始前只想说一句话：数学一定一定要学好！！！没有学完概率的我今天开头真的是看的昏昏欲睡，就算是现在也只能大概理解其原理，等抓紧时间学完概率，再来好好咀嚼一下这部分内容。最后给自己一碗鸡汤：从菜鸟走向大神，这是道路。

目标函数

对于线性回归模型，它的目标函数一般包括两部分：损失函数和正则项。

在回归问题中，一般采用L2损失，并且线性回归多数时候可不计正则，即：

正则项

选用L2正则，可以得到岭回归模型：

若选用L1正则，可以得到Lasso模型：

线性回归的概率解释

1.最小二乘（线性）回归等价于极大似然估计
2.正则（线性）回归等价于高斯先验（L2正则）或laplace先验下的贝叶斯估计（L1正则）。

下面给出证明：

最小二乘线性回归等价于极大似然估计

对于目标y，我们假设：y=f(x)+Ɛ=w(T)x+Ɛ
这里的Ɛ就是指预测值与真实值的残差，即yi-(yi^)

通常假设残差的分布满足高斯分布（二项分布）：

。
*实际上，当残差满足高斯分布式，就有最小二乘线性回归等价于极大似然估计。

因此线性回归可以写成

。其中，θ=（w，σ²）。我暂时将其理解为：真实值y满足以w(T)x为均值，σ为方差的高斯分布）。*这里的p(y|x,θ)应该是指先验概率，将来确认后补上。

———————————————————————————— 分割线 —————————————————————————————————————
二刷视频后，对这部分有了新的理解。实际上，极大似然的含义是(下一部分提到了)：在给定参数的情况下，数据出现的概率。而在线性回归(一定要注意，是没有正则项的线性回归)中，这里的参数是指wx和σ，数据则指y。这里的σ我们并不知道具体值，但我们的目的是求出w，即最小值点，σ的值并不影响最终结果。

另外，不仅仅是高斯分布，即便是如泊松分布、二项分布等其他分布，也和极大似然有一定的关系。至于原因，等将来理论知识补齐。