极大似然与极小化经验误差的等价关系证明
2018-03-05 22:32
274 查看
极大似然估计&最大后验概率估计
https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf
经验风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))minf∈F1N∑i=1NL(yi,f(xi))结构风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)李航博士《统计学习方法》中第一章第九页中有两个论断
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
证明论断1:
极大似然估计:对于观测的随机变量D,其总体分布为P(D;θ)P(D;θ)
S为抽样得到的样本,
S=(s1,s2,...,sN)S=(s1,s2,...,sN)
样本是独立同分布得到的,因此样本的分布为
L(θ)=∏i=1NP(si;θ)L(θ)=∏i=1NP(si;θ)
当S=(s1,s2,...,sN)S=(s1,s2,...,sN)确定,则上式可以看做是θθ的函数。
这个函数反映了在观察结果已知的情况下,θθ的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个θ∗θ∗去做θθ的估计,这种估计方法叫做”极大似然估计”。
取对数,极大平均似然函数为:
maxlogL(θ)=max1N∑i=1NlogP(si;θ)maxlogL(θ)=max1N∑i=1NlogP(si;θ)
上式等价于min−logL(θ)=min1N∑i=1N−logP(si;θ)min−logL(θ)=min1N∑i=1N−logP(si;θ)
在统计学习中,S就是样本,si=(xi,yi).xi为特征,yi为标签si=(xi,yi).xi为特征,yi为标签
当模型是条件概率分布时,则
P(si;θ)=P(yi|xi;θ)P(si;θ)=P(yi|xi;θ)
min−logL(θ)=min1N∑i=1N−logP(yi|xi;θ)(1)(1)min−logL(θ)=min1N∑i=1N−logP(yi|xi;θ)
当损失函数是对数损失函数
L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X))=−logP(Y|X)
则最小化经验风险的公式为
minf∈F1N∑i=1NL(yi,f(xi))=minf∈F1N∑i=1NL(yi,p(yi|xi;θ))=minf∈F1N∑i=1N−logp(yi|xi;θ)(2)minf∈F1N∑i=1NL(yi,f(xi))=minf∈F1N∑i=1NL(yi,p(yi|xi;θ))(2)=minf∈F1N∑i=1N−logp(yi|xi;θ)
对比(1)(2)两个公式,论断1得证。
证明论断2
极大似然估计将θθ看做是一个确定但未知的常量,而贝叶斯学派则认为θθ可以看做一个随机变量,从这个视角出发可得到条件概率P(θ|S)P(θ|S)
因此利用贝叶斯公式得到P(θ|S)=P(S|θ)P(θ)P(S)P(θ|S)=P(S|θ)P(θ)P(S)
最大后验概率估计是要最大化P(θ|S)P(θ|S)
因此maxP(θ|S)=maxP(S|θ)P(θ)maxP(θ|S)=maxP(S|θ)P(θ)
上式与极大似然估计相比,只多了个P(θ)P(θ).左边和极大似然估计一样,因此对左边取对数处理求平均似然最大
max1N∑i=1NlogP(si|θ)+logP(θ)max1N∑i=1NlogP(si|θ)+logP(θ)
当模型是条件概率分布时,则
P(si;θ)=P(yi|xi;θ)P(si;θ)=P(yi|xi;θ)
因此,
max1N∑i=1NlogP(yi|xi;θ)+logP(θ)max1N∑i=1NlogP(yi|xi;θ)+logP(θ)
取负号,转换为
min1N∑i=1N−logP(yi|xi;θ)−logP(θ)(3)(3)min1N∑i=1N−logP(yi|xi;θ)−logP(θ)
当损失函数是对数损失函数
L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X))=−logP(Y|X)
模型是条件概率分布时,结构风险最小化公式
minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)=minf∈F1N∑i=1N−logP(yi|xi;θ)+λJ(f)(4)(4)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)=minf∈F1N∑i=1N−logP(yi|xi;θ)+λJ(f)
比较公式(3)(4),则当λJ(f)=−logP(θ)λJ(f)=−logP(θ)
两者等价,论断2得证。
λλ在(4)中没有出现,其实λλ为超参,在模型中一般首先指定,如果为1/2 , 则−12∗2logP(θ)−12∗2logP(θ), 所以无论怎么取,都可以得到对应的使得等价。
相关文章推荐
- 极大似然和最小平方误差等价关系
- 最小二乘 极大似然 为什么最小二乘法对误差的估计要用平方
- 特定条件下经验风险最小化等价于极大似然估计的证明
- 特定条件下经验风险最小化等价于极大似然估计的证明(转载)
- 集合论——关系的闭包,等价关系与划分
- KL散度与极大似然
- jQuery选择器和方法的等价关系
- 证明:log(n!)与nlogn是等价无穷大
- 机器学习-极大似然原理解析。
- 人际关系经验(绝对有用)
- 经验误差(经验风险)最小化
- 贝叶斯学习--极大后验概率假设和极大似然假设
- 似然估计和极大似然估计应用
- 最小二乘、极大似然、梯度下降有何区别
- 最大似然估计、最大后验估计和贝叶斯估计的关系
- 二叉树中度为0的结点数与度为2的关系图解证明
- 离散--4.4 等价关系与偏序关系
- C++编写二元关系等价及其商集
- 证明:将n(n为2的幂)个点的位反转环划分为长为j(2的幂)的连续片段,这些片段都是次序等价的(分布式算法)
- php和asp对象的等价关系