您的位置:首页 > 其它

MLE极大似然估计

2015-04-02 17:23 232 查看
极大似然估计(MLE):

极大似然估计是一种参数估计的方法,即已知样本估计出模型参数。

极大似然估计是频率学派的一种方法(与贝叶斯学派的极大后验估计对应),频率学派认为模型的参数是确定的,只是不知道而已,所以可以通过样本推断出模型参数。

既然是极大“似然”估计,就要先明白什么是“似然”,在贝叶斯公式中有:



其中,

是模型参数的后验概率密度函数,

是模型参数的先验概率密度函数,这些都是频率学派所不关心的,所以MLE中只关心

,也就是似然函数。

可以看出似然函数就是假设已知参数的情况下得到观察样本的概率,而MLE的初衷就是选择

值,使得当前观察到的样本是该模型产生的数据这一概率最大!

似然函数的定义为:




就是通过参数为

的模型产生样本

的概率。

MLE极大似然估计就是求使得

最大的



log似然函数的定义为:



使用log似然有几点好处:它与似然函数

在同样的位置取得最大值;它可以将

中的乘法变成加法;

中的系数变成

中的常数项,因为不影响取极大值的位置,都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使

最大的

了,下面以求高斯分布的MLE为例来说明。

高斯函数:





分别对



求偏导得:





所以可以求得



的值为:





到这里就使用MLE的方法求出了高斯模型的参数,可以看出高斯模型的参数



可以通过统计量求得。

极大后验估计(MAP):

顺便提一下极大后验估计,其实明白MLE之后,MAP也比较好理解了。

极大后验估计又叫贝叶斯估计,贝叶斯与频率的最主要的区别就是先验的问题,所以MAP处理的目标函数就是

中的

。一般情况下

无法直接得到,所以我们可以处理

的等价形式

。这里就又要提到共轭先验了,也体现了共轭先验的作用。如果



的共轭先验,那么后验

的形式与先验

的形式是一样的,这种形式的一致性不仅计算起来比较方便也更适合在线学习(online
learning)。

通过

得到后验

的表达式后就可以使用与MLE同样的方法求出参数

了。

当先验是均匀分布时MAP退化为MLE!

MLE、MAP与经验风险最小、结构风险最小的关系

既然提到了MLE和MAP的关系,就再引申两个概念:经验风险最小与结构风险最小。这两个概念都是评价模型好坏的标准。

经验风险最小:

经验风险最小(ERM)标准认为经验风险最小的模型是最优模型,ERM就是求最优化问题:



其中F是假设空间,f是模型,L是损失函数。当样本容量很大时,ERM的效果较好,样本容量较小时,ERM容易产生过拟合现象。MLE就是ERM的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,ERM等价于MLE。

结构风险最小:

结构风险最小(SRM)是为了防止过拟合现象而提出的,SRM等价于正则化。SRM就是求最优化问题:




是模型的复杂度,是定义在F上的泛函。模型f越复杂,

就越大,反之,f越简单,

就越小。

是系数,用来权衡经验风险和模型复杂度。贝叶斯估计中的MAP就是SRM的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型先验概率表示时,SRM等价于MAP。

岭回归:

在回归问题中有如下关系:

一般的线性回归——MLE求解——最小二乘方法

岭回归——MAP求解——惩罚(正则)最小二乘方法

在岭回归中就是假设线性回归的参数w满足高斯分布。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: