您的位置：首页 > 其它

MLE极大似然估计

2015-04-02 17:23 232 查看

极大似然估计（MLE）：

极大似然估计是一种参数估计的方法，即已知样本估计出模型参数。

极大似然估计是频率学派的一种方法（与贝叶斯学派的极大后验估计对应），频率学派认为模型的参数是确定的，只是不知道而已，所以可以通过样本推断出模型参数。

既然是极大“似然”估计，就要先明白什么是“似然”，在贝叶斯公式中有：

其中，

是模型参数的后验概率密度函数，

是模型参数的先验概率密度函数，这些都是频率学派所不关心的，所以MLE中只关心

，也就是似然函数。

可以看出似然函数就是假设已知参数的情况下得到观察样本的概率，而MLE的初衷就是选择

值，使得当前观察到的样本是该模型产生的数据这一概率最大！

似然函数的定义为：

就是通过参数为

的模型产生样本

的概率。

MLE极大似然估计就是求使得

最大的

！

log似然函数的定义为：

使用log似然有几点好处：它与似然函数

在同样的位置取得最大值；它可以将

中的乘法变成加法；

中的系数变成

中的常数项，因为不影响取极大值的位置，都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使

最大的

了，下面以求高斯分布的MLE为例来说明。

高斯函数：

分别对

和

求偏导得：

所以可以求得

和

的值为：

到这里就使用MLE的方法求出了高斯模型的参数，可以看出高斯模型的参数

和

可以通过统计量求得。

极大后验估计（MAP）：

顺便提一下极大后验估计，其实明白MLE之后，MAP也比较好理解了。

极大后验估计又叫贝叶斯估计，贝叶斯与频率的最主要的区别就是先验的问题，所以MAP处理的目标函数就是

中的

。一般情况下

无法直接得到，所以我们可以处理

的等价形式

。这里就又要提到共轭先验了，也体现了共轭先验的作用。如果

是

的共轭先验，那么后验

的形式与先验

的形式是一样的，这种形式的一致性不仅计算起来比较方便也更适合在线学习（online
learning）。

通过

得到后验

的表达式后就可以使用与MLE同样的方法求出参数

了。

当先验是均匀分布时MAP退化为MLE！

MLE、MAP与经验风险最小、结构风险最小的关系

既然提到了MLE和MAP的关系，就再引申两个概念：经验风险最小与结构风险最小。这两个概念都是评价模型好坏的标准。

经验风险最小：

经验风险最小（ERM）标准认为经验风险最小的模型是最优模型，ERM就是求最优化问题：

其中F是假设空间，f是模型，L是损失函数。当样本容量很大时，ERM的效果较好，样本容量较小时，ERM容易产生过拟合现象。MLE就是ERM的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，ERM等价于MLE。

结构风险最小：

结构风险最小（SRM）是为了防止过拟合现象而提出的，SRM等价于正则化。SRM就是求最优化问题：

是模型的复杂度，是定义在F上的泛函。模型f越复杂，

就越大，反之，f越简单，

就越小。

是系数，用来权衡经验风险和模型复杂度。贝叶斯估计中的MAP就是SRM的一个例子。当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型先验概率表示时，SRM等价于MAP。

岭回归：

在回归问题中有如下关系：

一般的线性回归——MLE求解——最小二乘方法

岭回归——MAP求解——惩罚（正则）最小二乘方法

在岭回归中就是假设线性回归的参数w满足高斯分布。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航