您的位置：首页 > 其它

机器学习基础（五十八）—— 香农熵、相对熵（KL散度）与交叉熵

2016-04-28 21:01 330 查看

1. 香农熵（Shannon entropy）

信息熵（又叫香农熵）反映了一个系统的无序化（有序化）程度，一个系统越有序，信息熵就越低，反之就越高。

如果一个随机变量 X 的可能取值为 X={x1,x2,…,xn}，对应的概率为 p(X=xi)，则随机变量 X 的信息熵为：

H(X)=−∑i=1np(xi)logp(xi)

2. 相对熵（relative entropy）

所谓相对，自然在两个随机变量之间。又称互熵，Kullback–Leibler divergence（K-L 散度）等。设 p(x) 和 q(x) 是 X 取值的两个概率分布，则 p 对 q 的相对熵为：

D(p||q)=∑i=1np(x)logp(x)q(x)

在一定程度上，熵可以度量两个随机变量的距离。KL 散度是两个概率分布 P 和 Q 差别的非对称性的度量。KL 散度是用来度量使用基于 Q 的编码来编码来自 P 的样本平均所需的额外的位元数。

典型情况下，P 表示数据的真实分布，Q 表示数据的理论分布，模型分布，或 P 的近似分布。

相对熵的性质，相对熵（KL散度）有两个主要的性质。如下

（1）尽管 KL 散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

D(p||q)≠D(q||p)

（2）相对熵的值为非负值，即

D(p||q)≥0

在证明之前，需要认识一个重要的不等式，叫做吉布斯不等式。内容如下

这里提供一个离散型 KL 散度的简单实现：

from functools import reduce
import operator
import math

def kl(p, q):
return reduce(operator.add, map(lambda x, y: x*math.log(x/y), p, q))

3. 交叉熵（cross entropy）

H(p,q)=−∑xp(x)logq(x)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航