您的位置:首页 > 其它

信息熵 条件熵 联合熵 交叉熵 互信息

2018-03-07 17:43 295 查看
最近用到信息论的知识表较多,自己也总结下。1 信息熵(entropy)定义式:

其中P(x)是变量出现的概率。从直观上,信息熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。2 条件熵(conditional entropy)知道的信息越多,随机事件的不确定性就越小。
定义式:


3 联合熵设X Y为两个随机变量,对于给定条件Y=y下,X的条件熵定义为:


4 交叉熵交叉熵是用来衡量估计模型与真实概率之间的差距。 
如果一个随机变量X∼p(x)X∼p(x),q(x)q(x)用于近似p(x)p(x)的分布,那么变量XX与模型qq之间的交叉熵表示为 

5 互信息(mutual information)两个事件的互信息定义为:I(X;Y)=H(X)+H(Y)-H(X,Y),也就是用来衡量两个信息的相关性大小的量。互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。
定义式:


5相对熵?

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为DKL(p||q)DKL(p||q)。它度量当真实分布为p时,假设分布q的无效性。 
DKL(p||q)=Ep[logp(x)q(x)]=∑x∈Xp(x)logp(x)q(x)DKL(p||q)=Ep[log⁡p(x)q(x)]=∑x∈Xp(x)log⁡p(x)q(x) 
=∑x∈X[p(x)logp(x)−p(x)logq(x)]=∑x∈X[p(x)log⁡p(x)−p(x)log⁡q(x)] 
=∑x∈Xp(x)logp(x)−∑x∈Xp(x)logq(x)=∑x∈Xp(x)log⁡p(x)−∑x∈Xp(x)log⁡q(x) 
=−H(p)−∑x∈Xp(x)logq(x)=−H(p)−∑x∈Xp(x)log⁡q(x) 
=−H(p)+Ep[−logq(x)]=−H(p)+Ep[−log⁡q(x)] 
=Hp(q)−H(p)=Hp(q)−H(p) 
并且为了保证连续性,做如下约定: 
0log00=0,0log0q=0,plogp0=∞0log⁡00=0,0log⁡0q=0,plog⁡p0=∞ 
显然,当p=qp=q时,两者之间的相对熵DKL(p||q)=0DKL(p||q)=0 
上式最后的Hp(q)Hp(q)表示在p分布下,使用q进行编码需要的bit数,而H(p)表示对真实分布pp所需要的最小编码bit数。基于此,相对熵的意义就很明确了:DKL(p||q)DKL(p||q)表示在真实分布为p的前提下,使用q分布进行编码相对于使用真实分布p进行编码(即最优编码)所多出来的bit数

 交叉熵和KL散度上一节说了信息熵H(X)可以看做,对X中的样本进行编码所需要的编码长度的期望值。这里可以引申出交叉熵的理解,现在有两个分布,真实分布p和非真实分布q,我们的样本来自真实分布p。按照真实分布p来编码样本所需的编码长度的期望为

,这就是上面说的信息熵H( p )按照不真实分布q来编码样本所需的编码长度的期望为

,这就是所谓的交叉熵H( p,q )这里引申出KL散度D(p||q) = H(p,q) - H(p) = 

,也叫做相对熵,它表示两个分布的差异,差异越大,相对熵越大。
应用:(1)去计算一个变量的不确定性,可以考虑信息熵;在研究显著性时,可以用信息熵去计算一个区域的信息量的大小,近而来判断其为显著性区域;(2)计算两个变量之间的相关性,可以考虑条件熵;转至:http://blog.csdn.net/Erli11/article/details/21606235
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐