机器学习笔记(十九)——最大熵原理和模型定义
2016-11-27 18:57
267 查看
一、最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散型随机变量X的概率分布式P(X),则其熵是:
H(P)=−∑xP(x)logP(x)
熵满足下列不等式:
0≤H(P)≤log|x|
式中,|X|是X取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。
二、最大熵模型的定义
假设分类模型是一个条件概率分布P(Y|X),X∈X⊆Rn, 表示输入, Y∈Y表示输出,X,Y分别是输入和输出的集合。这个模型表示的是对于给定的输入X,以条件概率P(Y|X)输出Y.给定一个训练数据集
T={(x1,y1),(x2,y2),…,(xN,yN)}
学习的目标是用最大熵原理选择最好的分类模型。
对于给定的数据集,我们可以确定联合分布的经验分布和边缘分布的经验分布。用特征函数f(x,y)描述x,y之间的一个事实,即:
f(x,y)={1,0,x与y满足某一事实否则
特征函数f(x,y)关于经验分布P˜(X,Y)的期望值, 用Ep¯(f)表示。
Ep¯(f)=∑x,yP˜(x,y)f(x,y)
特征函数f(x,y)关于模型P(Y|X)与经验分布 P˜(X)的期望值, 用Ep(f)表示
Ep(f)=∑x,yP˜(x)P˜(y|x)f(x,y)
如果模型可以获得训练数据中的信息, 我们就可以假设这两个期望相等:
Ep¯(f)=Ep(f)
定义(最大熵模型) 假设满足所有约束条件的模型集合为
C≡{P∈P|Ep¯(fi)=Ep(fi),i=1,2…,n}
定义在条件概率分布P(Y|X)上的条件熵为:
H(P)=−∑x,yP˜(x)P(y|x)logP(y|x)
则模型集合C中条件熵H(P)最大的模型称为最大熵模型,对数为自然对数。后续将继续给出求解最大熵模型的过程。
相关文章推荐
- 七月算法机器学习笔记7 最大熵模型
- 机器学习笔记(二) 最大熵模型
- 机器学习笔记_ 最大熵模型
- 机器学习笔记(二十)——求解最大熵模型
- 机器学习入门之《统计学习方法》笔记整理——最大熵模型
- [nlp笔记]最大熵模型
- 机器学习系列之最大熵模型
- 最大熵学习笔记(三)最大熵模型
- 最大熵学习笔记(二)最大熵原理
- 听课笔记(第十一讲): 线性分类模型 (台大机器学习)
- 公开课机器学习笔记(17)学习理论二 VC维、ERM总结、模型选择、特征选择
- 机器学习第四篇(stanford大学公开课学习笔记) —生成型学习算法之高斯判别分析模型和朴素贝叶斯方法
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
- web前端——html基础笔记 NO.11{元素分类定义,盒模型}
- 机器学习学习笔记之rf模型
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
- 最大熵学习笔记(四)模型求解
- 【机器学习-斯坦福】学习笔记14 主成分分析(Principal components analysis)-最大方差解释
- 最大熵学习笔记(三)最大熵模型