交叉熵cross entropy和相对熵(kl散度)
2017-06-27 16:35
274 查看
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异。
相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。
对于两个概率分布 和 ,其相对熵的计算公式为:
注意:由于 和 在公式中的地位不是相等的,所以 。
相对熵的特点,是只有 时,其值为0。若 和 略有差异,其值就会大于0。
相对熵公式的前半部分 就是交叉熵(cross entropy)。
若 是数据的真实概率分布, 是由数据计算得到的概率分布。机器学习的目的就是希望 尽可能地逼近甚至等于 ,从而使得相对熵接近最小值0。由于真实的概率分布是固定的,相对熵公式的后半部分 就成了一个常数。相对熵的值大于等于0(https://zhuanlan.zhihu.com/p/28249050,这里给了证明),那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对 的优化就等效于求交叉熵的最小值。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)。
注意:交叉熵是衡量分布p与分布q的相似性,以前认为交叉熵的相似性越大,交叉熵的值就应该越大。但通过上面的推到可以看出,交叉熵得到两个分布的相似性是根据相对熵来的,所以相似性越大,交叉熵的值应该越小。相关文章推荐
- 相对熵(互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度即KL散度)的深入理解
- 相对熵(KL散度)
- 相对熵(KL散度)计算过程
- 特征选择--信息增益(相对熵、KL散度、KL距离)
- 交叉熵、相对熵及KL散度通俗理解
- 熵,交叉熵,相对熵(KL散度)
- 相对熵(KL散度)
- 相对熵(KL散度)
- 相对熵(KL散度)
- KL 散度,相对熵
- 相对熵(KL散度)
- 【原】浅谈KL散度(相对熵)在用户画像中的应用
- 熵、交叉熵、相对熵(KL 散度)意义及其关系
- 10.2 香农熵、相对熵(KL散度)与交叉熵
- 最大似然估计,交叉熵,相对熵(KL散度)
- KL散度 自信息 熵 相对熵 KL divergence entropy
- 机器学习基础(五十八)—— 香农熵、相对熵(KL散度)与交叉熵
- 相对熵(relative entropy或 Kullback-Leibler divergence,KL距离)的java实现(三)
- 自编码算法与稀疏性(KL散度诱导稀疏)
- KL Divergence(KL 散度)