您的位置:首页 > 其它

【机器学习--线性回归01】线性回归模型

2018-03-06 23:01 337 查看
    等了很久,终于进入机器学习环节了。开始前只想说一句话:数学一定一定要学好!!!没有学完概率的我今天开头真的是看的昏昏欲睡,就算是现在也只能大概理解其原理,等抓紧时间学完概率,再来好好咀嚼一下这部分内容。最后给自己一碗鸡汤:从菜鸟走向大神,这是道路。

目标函数

    对于线性回归模型,它的目标函数一般包括两部分:损失函数和正则项。
                         


    在回归问题中,一般采用L2损失,并且线性回归多数时候可不计正则,即:
                       

 

正则项

    选用L2正则,可以得到岭回归模型:
                       


    若选用L1正则,可以得到Lasso模型:
                        


线性回归的概率解释

    1.最小二乘(线性)回归等价于极大似然估计
    2.正则(线性)回归等价于高斯先验(L2正则)或laplace先验下的贝叶斯估计(L1正则)。

    下面给出证明:

最小二乘线性回归等价于极大似然估计

    对于目标y,我们假设:y=f(x)+Ɛ=w(T)x+Ɛ
    这里的Ɛ就是指预测值与真实值的残差,即yi-(yi^)

    通常假设残差的分布满足高斯分布(二项分布):

 。
        *实际上,当残差满足高斯分布式,就有最小二乘线性回归等价于极大似然估计。

    因此线性回归可以写成 

 。其中,θ=(w,σ²)。我暂时将其理解为:真实值y满足以w(T)x为均值,σ为方差的高斯分布)。*这里的p(y|x,θ)应该是指先验概率,将来确认后补上。

————————————————————————————    分割线   —————————————————————————————————————
    二刷视频后,对这部分有了新的理解。实际上,极大似然的含义是(下一部分提到了):在给定参数的情况下,数据出现的概率。而在线性回归(一定要注意,是没有正则项的线性回归)中,这里的参数是指wx和σ,数据则指y。这里的σ我们并不知道具体值,但我们的目的是求出w,即最小值点,σ的值并不影响最终结果。

    另外,不仅仅是高斯分布,即便是如泊松分布、二项分布等其他分布,也和极大似然有一定的关系。至于原因,等将来理论知识补齐。

    极大似然估计

        θ=agr max logp(D|θ)        解释:log是为了方便计算,p(D|θ)指在给定参数θ的情况下,数据集D出现的概率。此时有:

。                        可以理解为θ是一次实验,D是重复独立实验。这个概念有些类似于全概率公式。
        于是可以化成

 ,可以化为极小负log似然损失:

        


    在多维情况下

        


正则回归等价于贝叶斯估计

    假设参数w的先验分布为 wj=N(0,β²)。
    于是,和上面一样将p(w)转化:


        *贝叶斯估计:


            即:后验 = 先验 × 似然率

    由贝叶斯公式,得到参数的后验分布为:



    同时乘σ²,去掉无关因素,可得最大后验估计等价于最小目标函数:



    对比岭回归的目标函数:



    可以发现参数一一对应。

       
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: