您的位置:首页 > 大数据 > 人工智能

AI数学基础——经验分布,熵

2019-09-05 12:40 459 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/guo11327/article/details/100555789

经验分布

经验分布函数是与样本经验测度相关的分布函数。 该分布函数是在n个数据点中的每一个上都跳跃1 / n的阶梯函数。 其在测量变量的任何指定值处的值是小于或等于指定值的测量变量的观测值的数。
经验分布函数是对样本中生成点的累积分布函数的估计。 根据Glivenko-Cantelli定理,它以概率1收敛到该基础分布。 同时也存在一些结果来量化经验分布函数与潜在的累积分布函数的收敛速度。

我的理解

经验分布是对样本的统计,单一样本的概率分布为1/N1/N1/N。
画图表示,可看到分布函数为呈跳跃上升的,每一跳跃为1/n,若有重复L次的值,则按1/n的L倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F(x)的图形。若把经验分布函数的图形连成折线,那么它实际就是累积频率直方图的上边。
这和概率分布函数的性质是一致的。

经典统计推断主要的思想就是用样本分布来推断总体分布。

熵详细介绍
下文仅为个人总结,参考

信息熵(information entropy)

信息熵是对信息的度量,对某一事件,信息越多则越了解。那么该事件的不确定性越低。
信息熵越低,信息的确定性越低。中国是一个国家。
而对于海南下雪了,我们需要大量的信息来佐证,则信息的熵很高。
这里仍然很抽象,度量的标准仍然很模糊,我们接着往下看

考虑随机变量 xxx ,发生的概率为 P(x)P(x)P(x) , I(x)I(x)I(x) 随机变量 xxx 的自信息 (self-information),描述的是随机变量的某个事件发生所带来的信息量。
事件发生产生信息,多个事件x,y(相互独立)一起发生,则产生信息增加。
I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)
P(x,y)=P(x)∗P(y)P(x,y)=P(x)*P(y)P(x,y)=P(x)∗P(y)
I(x)I(x)I(x)一定与P(x)P(x)P(x)的对数有关。
I(x)=−logp(x)I(x)=-logp(x)I(x)=−logp(x)
I(x)I(x)I(x) 的关于概率分布P(x)P(x)P(x)期望为:
H(X)=−∑xp(x)logp(x)=−∑i=1np(xi)logp(xi)H(X)=-\displaystyle\sum_{x}p(x)logp(x)=-\sum_{i=1}^{n}p(x_i)logp(x_i)H(X)=−x∑​p(x)logp(x)=−i=1∑n​p(xi​)logp(xi​)
H(x)H(x)H(x) 表示随机变量xxx的熵,为随机变量不确定性的度量。X的种类越多,其熵就越大。当X服从均匀分布时,熵最大。

推广到两个相互独立的随机变量 x,y ,其联合熵表示:

H(X,Y)=−∑x,yp(x,y)logp(x,y)=−∑i=1n∑j=1mp(xi,yi)logp(xi,yi)H(X,Y)=-\displaystyle\sum_{x,y}p(x,y)logp(x,y)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(x_i,y_i)logp(x_i,y_i)H(X,Y)=−x,y∑​p(x,y)logp(x,y)=−i=1∑n​j=1∑m​p(xi​,yi​)logp(xi​,yi​)

条件熵

顾名思义,其必与条件概率有关。
给定随机变量X的条件下,随机变量Y的条件概率分布熵对X的期望:
H(Y∣X)=∑xp(x)H(Y,X=x)H(Y|X)=\displaystyle\sum_{x}p(x)H(Y,X=x)H(Y∣X)=x∑​p(x)H(Y,X=x)

条件熵 H(Y∣X)H(Y|X)H(Y∣X)相当于联合熵 H(X,Y)H(X,Y)H(X,Y)减去单独的熵 H(X)H(X)H(X),即:


我这样理解,联合熵即为XXX,YYY的信息熵之和。因为XXX,YYY不相互独立,故其信息有重复,因此需要H(Y∣X)H(Y|X)H(Y∣X),而不是加H(Y)H(Y)H(Y), 若X,Y相互独立,即信息不交叉,则H(Y∣X)=H(Y)H(Y|X) = H(Y)H(Y∣X)=H(Y)。

相对熵(KL散度)

大佬详细介绍

In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.
information gain 即信息增益

翻译:在机器学习范围内,DKL(P||Q)被称为信息增益,由P而不是Q描述问题。

PPP ,QQQ 为针对随机变量xxx的概率分布,相对熵,或者KL散度来衡量二者的差异。

DKL(p∣∣q)=∑i=1np(xi)log(p(xi)q(xi))D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)}) DKL​(p∣∣q)=i=1∑n​p(xi​)log(q(xi​)p(xi​)​)

DKL的值越小,信息增益越小,P Q 描述越接近。
机器学习中,通常P为样本经验分布作为P,Q为预测分布。

交叉熵

部分转载自这里详解机器学习中熵,条件熵,交叉熵

在信息论中,交叉熵是表示两个概率分布p,qp,qp,q,其中ppp表示真实分布,qqq表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下:
假设现在有一个样本集中两个概率分布p,qp,qp,q,其中ppp为真实分布,qqq为非真实分布。假如,按照真实分布ppp来衡量识别一个样本所需要的编码长度的期望为:
H(p)=∑xp(x)log1p(x)H(p) =\displaystyle\sum_{x}p(x)log\frac{1}{p(x)}H(p)=x∑​p(x)logp(x)1​
但是,如果采用错误的分布qqq来表示来自真实分布ppp的平均编码长度,则应该是:
H(p)=∑xp(x)log1q 4000 (x)H(p) =\displaystyle\sum_{x}p(x)log\frac{1}{q(x)}H(p)=x∑​p(x)logq(x)1​
此时就将H(p,q)H(p,q)H(p,q)称之为交叉熵。

相对熵的公式
DKL(p∣∣q)=∑xp(x)logp(x)q(x)=∑xp(x)logp(x)−p(x)logq(x)D_{KL}(p||q)=\displaystyle\sum_{x}p(x)log\frac{p(x)}{q(x)}=\sum_{x}p(x)logp(x)-p(x)logq(x)DKL​(p∣∣q)=x∑​p(x)logq(x)p(x)​=x∑​p(x)logp(x)−p(x)logq(x)
熵的公式: H(p)=−∑xp(x)logp(x)H(p)=-\displaystyle\sum_{x}p(x)logp(x)H(p)=−x∑​p(x)logp(x)

交叉熵的公式 H(p)=−∑xp(x)logp(x)H(p)=-\displaystyle\sum_{x}p(x)logp(x)H(p)=−x∑​p(x)logp(x)

DKL(p∣∣q)=H(p,q)−H(p)D_{KL}(p||q)=H(p,q)-H(p)DKL​(p∣∣q)=H(p,q)−H(p)
当用非真实分布 q(x)q(x)q(x)得到的平均码长比真实分布 p(x)p(x)p(x)得到的平均码长多出的比特数就是相对熵

又因为 DKL(p∣∣q)≥0D_{KL}(p||q)\geq0DKL​(p∣∣q)≥0, 所以 H(p,q)≥H(p)H(p,q)≥H(p)H(p,q)≥H(p)

(当 p(x)=q(x)p(x)=q(x)p(x)=q(x) 时取等号,此时交叉熵等于信息熵)并且当 H(p)H(p)H(p)

为常量时(注:在机器学习中,训练数据分布是固定的),最小化相对熵 DKL(p∣∣q)D_{KL}(p||q)DKL​(p∣∣q)等价于最小化交叉熵 H(p,q)H(p,q)H(p,q).

也等价于最大化似然估计(具体参考Deep Learning 5.5)。

最大熵模型

最大熵原理

最大熵原理认为:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型。通常用约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散的随机变量XXX的概率模型为P(X)P(X)P(X),其熵为:
H(X)=−∑xp(x)logp(x)=−∑i=1np(xi)logp(xi)H(X)=-\displaystyle\sum_{x}p(x)logp(x)=-\sum_{i=1}^{n}p(x_i)logp(x_i)H(X)=−x∑​p(x)logp(x)=−i=1∑n​p(x 4000 i​)logp(xi​)
熵满足下列不等式:
000

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: