您的位置:首页 > 大数据 > 人工智能

图解AI数学基础 | 信息论

2022-02-25 00:01 931 查看

作者:韩信子@ShowMeAI 教程地址http://www.showmeai.tech/tutorials/83 本文地址http://www.showmeai.tech/article-detail/164 声明:版权所有,转载请联系平台与作者并注明出处

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论中包含的知识和概念在机器学习中也有应用,典型的例子是其核心思想『熵』的应用。

例如,决策树模型ID3、C4.5中是利用信息增益来确定划分特征而逐步生长和构建决策树的;其中,信息增益就是基于信息论中的熵。

1.熵(Entropy)

熵是1854年由克劳休斯提出的一个用来度量体系混乱程度的单位,并阐述了热力学第二定律熵增原理:在孤立系统中,体系与环境没有能量交换,体系总是自发的向混乱度增大的方向变化,使整个系统的熵值越来越大。

熵越大,表征的随机变量的不确定度越大,其含有的信息量越多

随机变量$X$可能的取值为$\left{ x_{1},x_{2} ,\dots ,x_ \right}$,其概率分布为$P\left( X=x_ \right) =p_$,i = 1, 2, \dots, n,则随机变量$X$的熵定义为$H(X)$:

# 2.联合熵(Joint Entropy ) ![联合熵 Joint Entropy](https://img-blog.csdnimg.cn/img_convert/2cc93a251e1106446fb07bf3d706643b.png) 联合熵,就是度量一个联合分布的随机系统的不确定度。分布为$P(x,y)$的一对随机变量$(X,Y)$,其联合熵定义为: $$H\left( X,Y \right) =-\sum_{i=1}^{n}{\sum_{j=1}^{n}{P\left( x_{i} ,y_{j} \right)} logP\left( x_{i},y_{j} \right) } =E\left[ \log\frac{1}{p(x,y)} \right]$$ **联合熵的物理意义**,是观察一个多随机变量的随机系统获得的信息量,是对二维随机变量$(X,Y)$不确定性的度量。 # 3.条件熵(Conditional Entropy) $Y$的条件熵是指『在随机变量$X$发生的前提下,随机变量$Y$发生新带来的熵』,用$H(Y | X)$表示: $$H\left(Y|X \right) =-\sum_{x,y}^{}{P\left( x,y \right) logP\left( y|x \right) }$$ ![条件熵 Conditional Entropy](https://img-blog.csdnimg.cn/img_convert/07985cc0342e0a09ded3ed751e2ea562.png) **条件熵的物理意义**,在得知某一确定信息的基础上获取另外一个信息时所获得的信息量,用来衡量在已知随机变量的$X$条件下,随机变量$Y$的不确定性。 # 4.相对熵(Kullback–Leibler divergence) 相对熵在信息论中用来描述两个概率分布差异的熵,叫作KL散度、相对熵、互熵、交叉熵、信息增益。对于一个离散随机变量的两个概率分布$P$和$Q$来说,它们的相对熵定义为: $$D\left( P||Q \right) =\sum_{i=1}^{n}{P\left( x_{i} \right) log\frac{P\left( x_{i} \right) }{Q\left( x_{i} \right) } }$$ ![相对熵 Kullback–Leibler divergence](https://img-blog.csdnimg.cn/img_convert/54dc375ff0d2c82a99f710a5ee8077d5.png) 注意:公式中$P$表示真实分布,$Q$表示$P$的拟合分布,$D(P||Q) ≠ D(Q||P)$ 相对熵表示当用概率分布$Q$来拟合真实分布$P$时,产生的信息损耗。 # 5.互信息(Mutual Information) 互信息是信息论里一种有用的信息度量方式,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。 互信息的计算方式定义如下: $$I\left( X,Y \right) =\sum_{x\in X}^{}{\sum_{y\in Y}^{}{P\left( x,y \right) } log\frac{P\left( x,y \right) }{P\left( x \right) P\left( y \right) } }$$ ![互信息 Mutual Information](https://img-blog.csdnimg.cn/img_convert/21b6bb90fa40d2020de35150fc359908.png) # 6.常用等式(useful equations) ## 1)条件熵、联合熵与熵之间的关系 $$H\left( Y|X \right) =H\left( X,Y\right) -H\left( X \right)$$ **推导过程如下**: $\begin{array}{l} H(X, Y)-H(X) \\ =-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \\ =-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x) \\ =-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x) \\ =-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ =-\sum_{x, y} p(x, y) \log p(y \mid x) \end{array}$ - 第二行推到第三行的依据是边缘分布$P(x)$等于联合分布$P(x,y)$的和; - 第三行推到第四行的依据是把公因子$logP(x)$乘进去,然后把$x,y$写在一起; - 第四行推到第五行的依据是:因为两个$\sigma$都有$P(x,y)$,故提取公因子$P(x,y)$放到外边,然后把里边的$-(log P(x,y) - log P(x))$写成$- log (P(x,y) / P(x) )$; - 第五行推到第六行的依据是:$P(x,y) = P(x) * P(y|x)$,故$P(x,y) / P(x) = P(y|x)$。 ## 2)条件熵、联合熵与互信息之间的关系 $$H\left( Y|X \right) =H\left( Y \right) -I\left( X,Y \right)$$ 推导过程如下: $\begin{array}{l} H(Y)-I(X, Y) \\ =-\sum_{y} p(y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ =-\sum_{y}\left(\sum_{x} p(x, y)\right) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ =-\sum_{x, y} p(x, y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ =-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ =-\sum_{x, y} p(x, y) \log p(y \mid x) \\ =H(Y \mid X) \end{array}$ ## 3)互信息的定义 ![常用等式 useful equations](https://img-blog.csdnimg.cn/img_convert/eec4cd00926ab67a901889ec8e3b187c.png) 由上方的两个公式 - $H(Y|X) = H(Y) - I(X,Y)$ - $H(Y|X) = H(X,Y) - H(X)$ 可以推出$I(X,Y)= H(X) + H(Y) - H(X,Y)$,此结论被多数文献作为互信息的定义 # 7.最大熵模型(Max Entropy Model) 机器学习领域,概率模型学习过程中有一个最大熵原理,即学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。 通常用约束条件来确定模型的集合,所以最大熵模型原理也可以表述为:在满足约束条件的模型集合中,选取熵最大的模型。 前面我们知道,若随机变量$X$的概率分布是$P\left( x_{i} \right)$,其熵的定义如下: $$H\left( X \right) =-\sum_{i=1}^{n}{P\left( x_{i} \right) logP\left( x_{i} \right) } =\sum_{i=1}^{n}{P\left( x_{i} \right) \frac{1}{logP\left( x_{i} \right) } }$$ ![最大熵模型 Max Entropy Model](https://img-blog.csdnimg.cn/img_convert/aff3ba59e8a64c14c38c349b949991c8.png) 熵满足下列不等式:$0\leq H\left( X \right) \leq log\left| X \right|$ - $|X|$是$X$的取值个数 - 当且仅当$X$的分布是均匀分布时,右边的等号成立;也就是说,当$X$服从均匀分布时,熵最大。 直观地看,最大熵原理认为: * 要选择概率模型,首先必须满足已有的事实,即约束条件; * 在没有更多信息的情况下,那些不确定的部分都是『等可能的』。最大熵原理通过熵的最大化来表示等可能性;『等可能』不易操作,而熵则是一个可优化的指标。 # ShowMeAI相关文章推荐 * [图解线性代数与矩阵论](http://www.showmeai.tech/article-detail/162) * [图解概率与统计](http://www.showmeai.tech/article-detail/163) * [图解信息论](http://www.showmeai.tech/article-detail/164) * [图解微积分与最优化](http://www.showmeai.tech/article-detail/165) # ShowMeAI系列教程推荐 * [图解Python编程:从入门到精通系列教程](http://www.showmeai.tech/tutorials/56) * [图解数据分析:从入门到精通系列教程](http://www.showmeai.tech/tutorials/33) * [图解AI数学基础:从入门到精通系列教程](http://showmeai.tech/tutorials/83) * [图解大数据技术:从入门到精通系列教程](http://www.showmeai.tech/tutorials/84) ![](https://img-blog.csdnimg.cn/img_convert/b346f269bd0216a8595dc088cdc2080e.gif)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: