您的位置：首页 > 其它

极大似然与极小化经验误差的等价关系证明

2018-03-05 22:32 274 查看

极大似然估计&最大后验概率估计

https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf

经验风险最小化：

minf∈F1N∑Ni=1L(yi,f(xi))minf∈F1N∑i=1NL(yi,f(xi))

结构风险最小化：

minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)

李航博士《统计学习方法》中第一章第九页中有两个论断

当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计

证明论断1：

极大似然估计：对于观测的随机变量D，其总体分布为

P(D;θ)P(D;θ)

S为抽样得到的样本，

S=(s1,s2,...,sN)S=(s1,s2,...,sN)

样本是独立同分布得到的，因此样本的分布为

L(θ)=∏i=1NP(si;θ)L(θ)=∏i=1NP(si;θ)

当S=(s1,s2,...,sN)S=(s1,s2,...,sN)确定，则上式可以看做是θθ的函数。

这个函数反映了在观察结果已知的情况下，θθ的“似然程度”，因此上式被叫做似然函数。用似然程度最大的那个θ∗θ∗去做θθ的估计，这种估计方法叫做”极大似然估计”。

取对数，极大平均似然函数为：

maxlogL(θ)=max1N∑i=1NlogP(si;θ)maxlogL(θ)=max1N∑i=1NlogP(si;θ)

上式等价于min−logL(θ)=min1N∑i=1N−logP(si;θ)min−log⁡L(θ)=min1N∑i=1N−logP(si;θ)

在统计学习中，S就是样本，si=(xi,yi).xi为特征,yi为标签si=(xi,yi).xi为特征,yi为标签

当模型是条件概率分布时，则

P(si;θ)=P(yi|xi;θ)P(si;θ)=P(yi|xi;θ)

min−logL(θ)=min1N∑i=1N−logP(yi|xi;θ)(1)(1)min−log⁡L(θ)=min1N∑i=1N−log⁡P(yi|xi;θ)

当损失函数是对数损失函数

L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X))=−log⁡P(Y|X)

则最小化经验风险的公式为

minf∈F1N∑i=1NL(yi,f(xi))=minf∈F1N∑i=1NL(yi,p(yi|xi;θ))=minf∈F1N∑i=1N−logp(yi|xi;θ)(2)minf∈F1N∑i=1NL(yi,f(xi))=minf∈F1N∑i=1NL(yi,p(yi|xi;θ))(2)=minf∈F1N∑i=1N−logp(yi|xi;θ)

对比(1)(2)两个公式，论断1得证。

证明论断2

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 极大似然与损失函数最小原则等价性概率

相关文章推荐

新的分享

章节导航