KL散度与极大似然
2017-11-23 23:34
239 查看
极大似然估计是一种概率论在统计学中的应用,建立在极大似然原理的基础上,极大似然原理的直观解释是:一个随机试验如有若干个可能的结果A、B、C、…,若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大,那么就取参数估计,使A出现的概率最大。
设随机变量Y具有概率密度函数
![](https://img-blog.csdn.net/20141106203958588?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
,θ是参数向量。当我们得到Y的一组独立观测值
![](https://img-blog.csdn.net/20141106212101062?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
时,定义θ的似然函数为
![](https://img-blog.csdn.net/20141106212048619?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
。极大似然法是采用使L(θ)最大的θ的估计值
![](https://img-blog.csdn.net/20141106212321531?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
作为参数值。
为了计算方便,我们通常求使
![](https://img-blog.csdn.net/20141106212454101?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
最大的θ的估计值,这与L(θ)最大是等价的,由于
![](https://img-blog.csdn.net/20141106212642984?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
,当
![](https://img-blog.csdn.net/20141106212626141?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
,几乎处处有
![](https://img-blog.csdn.net/20141106212651288?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
在观测样本已知的情况下,N是定值,那么,极大似然估计
![](https://img-blog.csdn.net/20141106212321531?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
是使
![](https://img-blog.csdn.net/20141106212837500?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I<br/>b68e<br/>0JBQkFCMA==/dissolve/70/gravity/Center)
最大的θ的估计值。若Y的真实分布的密度函数为g(y),我们有
![](https://img-blog.csdn.net/20141106212834826?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanRlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
衡量两个分布g(·)和f(·|θ)差异性的统计量KL散度(或者相对熵)为:
![](https://img-blog.csdn.net/20141106213030687)
只有当g(y)等于f(y|θ)时,KL散度才为0,因此,当随机变量Y给定时,
![](https://img-blog.csdn.net/20141106213157392)
为定值,
![](https://img-blog.csdn.net/20141106213226299)
最大化,就是
![](https://img-blog.csdn.net/20141106213252569)
最小化,即求最近似于g(y)的f(y|θ)。这个解释从信息论的角度透彻地说明了极大似然法的本质。
KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。
根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:
H(X)=∑x∈XP(x)log[1/P(x)]=-∑x∈XP(x)log(p(x))
在同样的字符集上,假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码(即字符x的编码长度等于log[1/P(x)]),来为符合分布Q(X)的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:
DKL(Q||P)=∑x∈XQ(x)[log(1/P(x))] - ∑x∈XQ(x)[log[1/Q(x)]]=∑x∈XQ(x)log[Q(x)/P(x)]
由于-log(u)是凸函数,因此有下面的不等式
DKL(Q||P) = -∑x∈XQ(x)log[P(x)/Q(x)]
= E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -log∑x∈XQ(x)P(x)/Q(x) = 0
即KL-divergence始终是大于等于0的。当且仅当两分布相同时,KL-divergence等于0。
===========================
举一个实际的例子吧:比如有四个类别,一个方法A得到四个类别的概率分别是0.1,0.2,0.3,0.4。另一种方法B(或者说是事实情况)是得到四个类别的概率分别是0.4,0.3,0.2,0.1,那么这两个分布的KL-Distance(A,B)=0.1*log(0.1/0.4)+0.2*log(0.2/0.3)+0.3*log(0.3/0.2)+0.4*log(0.4/0.1)
这个里面有正的,有负的,可以证明KL-Distance()>=0.
从上面可以看出, KL散度是不对称的。即KL-Distance(A,B)!=KL-Distance(B,A)
KL散度是不对称的,当然,如果希望把它变对称,
Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2
设随机变量Y具有概率密度函数
,θ是参数向量。当我们得到Y的一组独立观测值
时,定义θ的似然函数为
。极大似然法是采用使L(θ)最大的θ的估计值
作为参数值。
为了计算方便,我们通常求使
最大的θ的估计值,这与L(θ)最大是等价的,由于
,当
,几乎处处有
在观测样本已知的情况下,N是定值,那么,极大似然估计
是使
最大的θ的估计值。若Y的真实分布的密度函数为g(y),我们有
衡量两个分布g(·)和f(·|θ)差异性的统计量KL散度(或者相对熵)为:
只有当g(y)等于f(y|θ)时,KL散度才为0,因此,当随机变量Y给定时,
为定值,
最大化,就是
最小化,即求最近似于g(y)的f(y|θ)。这个解释从信息论的角度透彻地说明了极大似然法的本质。
KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。
根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:
H(X)=∑x∈XP(x)log[1/P(x)]=-∑x∈XP(x)log(p(x))
在同样的字符集上,假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码(即字符x的编码长度等于log[1/P(x)]),来为符合分布Q(X)的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:
DKL(Q||P)=∑x∈XQ(x)[log(1/P(x))] - ∑x∈XQ(x)[log[1/Q(x)]]=∑x∈XQ(x)log[Q(x)/P(x)]
由于-log(u)是凸函数,因此有下面的不等式
DKL(Q||P) = -∑x∈XQ(x)log[P(x)/Q(x)]
= E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -log∑x∈XQ(x)P(x)/Q(x) = 0
即KL-divergence始终是大于等于0的。当且仅当两分布相同时,KL-divergence等于0。
===========================
举一个实际的例子吧:比如有四个类别,一个方法A得到四个类别的概率分别是0.1,0.2,0.3,0.4。另一种方法B(或者说是事实情况)是得到四个类别的概率分别是0.4,0.3,0.2,0.1,那么这两个分布的KL-Distance(A,B)=0.1*log(0.1/0.4)+0.2*log(0.2/0.3)+0.3*log(0.3/0.2)+0.4*log(0.4/0.1)
这个里面有正的,有负的,可以证明KL-Distance()>=0.
从上面可以看出, KL散度是不对称的。即KL-Distance(A,B)!=KL-Distance(B,A)
KL散度是不对称的,当然,如果希望把它变对称,
Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2
相关文章推荐
- 最大似然估计,交叉熵,相对熵(KL散度)
- KL Divergence(KL散度)
- 极大似然参数估计
- 自编码算法与稀疏性(KL散度诱导稀疏)
- 极大似然和极大后验概率
- 从极大似然到EM算法
- 相对熵(互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度即KL散度)的深入理解
- KL散度的理解
- 熵,交叉熵,相对熵(KL散度)
- 转--Approximate Inference(近似推断,变分推断,KL散度,平均场, Mean Field )
- 从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
- 先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念
- KL散度
- KL散度(Kullback-Leibler_divergence)
- Latex:极大似然值符号
- 四、极大似然参数估计
- 熵、交叉熵、相对熵(KL 散度)意义及其关系
- 相对熵(KL散度)计算过程
- 先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念
- 贝叶斯学习--极大后验概率假设和极大似然假设