MLE极大似然估计
2015-04-02 17:23
232 查看
极大似然估计(MLE):
极大似然估计是一种参数估计的方法,即已知样本估计出模型参数。
极大似然估计是频率学派的一种方法(与贝叶斯学派的极大后验估计对应),频率学派认为模型的参数是确定的,只是不知道而已,所以可以通过样本推断出模型参数。
既然是极大“似然”估计,就要先明白什么是“似然”,在贝叶斯公式中有:
其中,
是模型参数的后验概率密度函数,
是模型参数的先验概率密度函数,这些都是频率学派所不关心的,所以MLE中只关心
,也就是似然函数。
可以看出似然函数就是假设已知参数的情况下得到观察样本的概率,而MLE的初衷就是选择
值,使得当前观察到的样本是该模型产生的数据这一概率最大!
似然函数的定义为:
就是通过参数为
的模型产生样本
的概率。
MLE极大似然估计就是求使得
最大的
!
log似然函数的定义为:
使用log似然有几点好处:它与似然函数
在同样的位置取得最大值;它可以将
中的乘法变成加法;
中的系数变成
中的常数项,因为不影响取极大值的位置,都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使
最大的
了,下面以求高斯分布的MLE为例来说明。
高斯函数:
分别对
和
求偏导得:
所以可以求得
和
的值为:
到这里就使用MLE的方法求出了高斯模型的参数,可以看出高斯模型的参数
和
可以通过统计量求得。
极大后验估计(MAP):
顺便提一下极大后验估计,其实明白MLE之后,MAP也比较好理解了。
极大后验估计又叫贝叶斯估计,贝叶斯与频率的最主要的区别就是先验的问题,所以MAP处理的目标函数就是
中的
。一般情况下
无法直接得到,所以我们可以处理
的等价形式
。这里就又要提到共轭先验了,也体现了共轭先验的作用。如果
是
的共轭先验,那么后验
的形式与先验
的形式是一样的,这种形式的一致性不仅计算起来比较方便也更适合在线学习(online
learning)。
通过
得到后验
的表达式后就可以使用与MLE同样的方法求出参数
了。
当先验是均匀分布时MAP退化为MLE!
MLE、MAP与经验风险最小、结构风险最小的关系
既然提到了MLE和MAP的关系,就再引申两个概念:经验风险最小与结构风险最小。这两个概念都是评价模型好坏的标准。
经验风险最小:
经验风险最小(ERM)标准认为经验风险最小的模型是最优模型,ERM就是求最优化问题:
其中F是假设空间,f是模型,L是损失函数。当样本容量很大时,ERM的效果较好,样本容量较小时,ERM容易产生过拟合现象。MLE就是ERM的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,ERM等价于MLE。
结构风险最小:
结构风险最小(SRM)是为了防止过拟合现象而提出的,SRM等价于正则化。SRM就是求最优化问题:
是模型的复杂度,是定义在F上的泛函。模型f越复杂,
就越大,反之,f越简单,
就越小。
是系数,用来权衡经验风险和模型复杂度。贝叶斯估计中的MAP就是SRM的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型先验概率表示时,SRM等价于MAP。
岭回归:
在回归问题中有如下关系:
一般的线性回归——MLE求解——最小二乘方法
岭回归——MAP求解——惩罚(正则)最小二乘方法
在岭回归中就是假设线性回归的参数w满足高斯分布。
极大似然估计是一种参数估计的方法,即已知样本估计出模型参数。
极大似然估计是频率学派的一种方法(与贝叶斯学派的极大后验估计对应),频率学派认为模型的参数是确定的,只是不知道而已,所以可以通过样本推断出模型参数。
既然是极大“似然”估计,就要先明白什么是“似然”,在贝叶斯公式中有:
其中,
是模型参数的后验概率密度函数,
是模型参数的先验概率密度函数,这些都是频率学派所不关心的,所以MLE中只关心
,也就是似然函数。
可以看出似然函数就是假设已知参数的情况下得到观察样本的概率,而MLE的初衷就是选择
值,使得当前观察到的样本是该模型产生的数据这一概率最大!
似然函数的定义为:
就是通过参数为
的模型产生样本
的概率。
MLE极大似然估计就是求使得
最大的
!
log似然函数的定义为:
使用log似然有几点好处:它与似然函数
在同样的位置取得最大值;它可以将
中的乘法变成加法;
中的系数变成
中的常数项,因为不影响取极大值的位置,都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使
最大的
了,下面以求高斯分布的MLE为例来说明。
高斯函数:
分别对
和
求偏导得:
所以可以求得
和
的值为:
到这里就使用MLE的方法求出了高斯模型的参数,可以看出高斯模型的参数
和
可以通过统计量求得。
极大后验估计(MAP):
顺便提一下极大后验估计,其实明白MLE之后,MAP也比较好理解了。
极大后验估计又叫贝叶斯估计,贝叶斯与频率的最主要的区别就是先验的问题,所以MAP处理的目标函数就是
中的
。一般情况下
无法直接得到,所以我们可以处理
的等价形式
。这里就又要提到共轭先验了,也体现了共轭先验的作用。如果
是
的共轭先验,那么后验
的形式与先验
的形式是一样的,这种形式的一致性不仅计算起来比较方便也更适合在线学习(online
learning)。
通过
得到后验
的表达式后就可以使用与MLE同样的方法求出参数
了。
当先验是均匀分布时MAP退化为MLE!
MLE、MAP与经验风险最小、结构风险最小的关系
既然提到了MLE和MAP的关系,就再引申两个概念:经验风险最小与结构风险最小。这两个概念都是评价模型好坏的标准。
经验风险最小:
经验风险最小(ERM)标准认为经验风险最小的模型是最优模型,ERM就是求最优化问题:
其中F是假设空间,f是模型,L是损失函数。当样本容量很大时,ERM的效果较好,样本容量较小时,ERM容易产生过拟合现象。MLE就是ERM的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,ERM等价于MLE。
结构风险最小:
结构风险最小(SRM)是为了防止过拟合现象而提出的,SRM等价于正则化。SRM就是求最优化问题:
是模型的复杂度,是定义在F上的泛函。模型f越复杂,
就越大,反之,f越简单,
就越小。
是系数,用来权衡经验风险和模型复杂度。贝叶斯估计中的MAP就是SRM的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型先验概率表示时,SRM等价于MAP。
岭回归:
在回归问题中有如下关系:
一般的线性回归——MLE求解——最小二乘方法
岭回归——MAP求解——惩罚(正则)最小二乘方法
在岭回归中就是假设线性回归的参数w满足高斯分布。