您的位置:首页 > 其它

Andrew Ng公开课学习笔记——均方误差损失函数的概率解释

2017-11-09 22:53 190 查看

回顾

回想一下线性回归模型中的几个公式:(xi,yi)—i th training set hθ(x(i))=∑j=0nθjx(i)j=θTx, x0=1 J(θ)=12∑i=1m(hθ(x(i))−y(i))2 θ=(XTX)−1XTy

  大家对这几个公式肯定不陌生了,这里从概率角度解释为什么选择least square而不是差值的绝对值或者四次方等等作为损失函数。

概率解释

  首先对最小二乘赋予概率意义

Assume: y(i)=θTx(i)+ε(i)

ε(i)是误差项,可把ε(i)当做未建模的特征的捕捉,比如房间有多少个壁炉,有无花园等,也可当做随机噪声。

Assume: ε(i)∼N(0,σ2),猜想误差项服从均值为0,方差为σ2的高斯分布。为什么可以把误差项建模成服从高斯分布的随机变量呢?有两个原因:

便于进行数学处理

更合理。中心极限定律告诉我们许多独立变量之和趋向于服从高斯分布,如果误差是由许多效应共同导致的,例如:卖家的情绪,买家的情绪,房子是否有花园等等。如果所有这些点是独立的,那么根据中心极限定律,这些效应的总和接近于服从高斯分布。

误差项ε(i)的概率密度函数为p(ϵ(i))=12π−−√σexp⎛⎝⎜⎜−(ϵ(i))22σ2⎞⎠⎟⎟

那么估计条件概率p(y|x;θ)也服从高斯分布p(y(i)|x(i);θ)=12π−−√σexp⎛⎝⎜⎜−(y(i)−θTx(i))22σ2⎞⎠⎟⎟

注意,中间的分号表示θ并不是随机变量,而是具体值。所以给定样本x(i)和参数θ后,y(i)|x(i);θ服从均值为θTx(i),方差为σ2个高斯分布。

  现在我们已经知道条件概率的分布情况了,下面我们要做的是找到最合适的θ,使得模型预测的结果最符合给定的y。极大似然估计刚好解决这类问题。回想一下极大似然估计:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的一种方法。

θ的似然函数为L(θ)=L(θ;X,y)=p(y|X;θ)

注意到所有的误差项ε(i)是独立的,那么似然函数可以写成L(θ)=∏i=1mp(y(i)|x(i);θ)=∏i=1m12π−−√σexp⎛⎝⎜⎜−(y(i)−θTx(i))22σ2⎞⎠⎟⎟

  极大似然准则告诉我们:应该选择能使条件概率尽可能大的参数θ,也就是最大化θ的似然函数L(θ)。用对数简化似然函数中的连乘项,得到对数似然函数:l(θ)=logL(θ)=log∏i=1m12π−−√σexp⎛⎝⎜⎜−(y(i)−θTx(i))22σ2⎞⎠⎟⎟=∑i=1mlog12π−−√σexp⎛⎝⎜⎜−(y(i)−θTx(i))22σ2⎞⎠⎟⎟=mlog12π−−√σ−1σ2⋅12∑i=1m(y(i)−θTx(i))2

因此最大化l(θ)和最小化均方误差是等价的。这里σ对何时取最小值无影响。

总结

  我们的目的是让条件概率p(y|x;θ)尽可能大,越大说明我们预测过程受误差影响越小,那么预测越准确。因为ε(i)服从均值为0的高斯分布,所以当ε(i)接近0时,p(y(i)|x(i);θ)=p(ε(i))就越接近最大值12π√σ。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: