您的位置:首页 > 其它

逻辑斯蒂回归,最大熵模型及其等价性

2017-05-07 23:20 260 查看
首先推导二类分类训练集上的逻辑斯蒂回归模型(Logistic Regression), 然后推导最大熵模型(Maximum Entropy Model), 最后给出给出最大熵模型等价于逻辑斯蒂回归模型的条件.

1. 逻辑斯蒂回归

训练集T={(xi,yi)|i=1,2,...,N},x∈Rn,y∈{0,1}.

我们假设特征X之间具有某种相关关系: X,Y是随机变量, 且X的取值决定了Y的分布, 即Y=Y(x).

为了预测Y的取值,我们建立模型拟合Y在X给定时的条件概率:P(Y=1|X=x)=P{Y(x)=1}=f(x;β),其中f(x;β)是用来拟合这个条件概率的参数模型.

我们希望参数模型 f(x;β) 满足这样的性质:

f(x;β)∈[0,1].

f应该至少是个连续函数. 这是因为我们希望模型f的输出能够随 x平滑地变化.

f应该尽可能简单.

幸运的是, 恰好存在一个函数完美满足上述所有条件,即sigmoid函数:f(x;β)=11+e−(β0+βT1x)

于是,我们的模型变成:P(Y=1|X=x)=11+e−(β0+βT1x)

我们使用最大似然估计来求解模型参数β:⎧⎩⎨⎪⎪⎪⎪maxβL(β)L(β)=ln∏i=1nf(xi;β)yi(1−f(xi;β))1−yi

为什么选择sigmoid函数

保留训练集T以及X,Y的相关关系不变,现在我们使用广义线性模型(GLM)对训练集建模:L(η(EY))=β0+βT1x.

现在我们来细化上述模型:一方面,考虑到Y∈{0,1}, 不妨假设Y服从二项分布: Y(x)∼B(p(x)); 另一方面, 我们使用Y的期望来预测Y的取值, 这样我们有:η(EY)=η(EY(x))=EY(x)=p(x).

考虑到二项分布的连接函数L通常取logit函数:logit(x)=lnx1−x,于是, 上述模型变为:lnp(x)1−p(x)=β0+βT1x,解得p(x)=11+e−(β0+βT1).此即sigmoid函数.

2. 最大熵模型

离散分布P的:H(P)=−∑x∈Ωp(x)lnp(x)

二维离散分布PX,Y的条件熵:H(PY|X)=−∑x∈Ω1,y∈Ω2p(x)p(y|x)lnp(y|x)

给定训练集T={(xi,yi)|i=1,2,..,N},x∈Ω1,y∈Ω2, 我们学习一个熵最大的条件概率模型p(y|x). 注意PY|X是一个矩阵, 用p表示.

目标函数为: maxpH(p), 由于目标函数与训练集无关, 因此, 为了拟合训练集, 我们引入如下约束:

∀x∈Ω1,PX(x)=P̂ X(x), P̂ X是X在训练集上的经验边缘概率分布;

∑yp(y|x)=1. 值得注意的是, 这是一个约束, 而不是每个 x 对应一个的多个约束. 原因在于, p是一个矩阵, 此条件可以等价表述为 Ap=1, 是一个仿射约束;

为了表示我们关于训练集的其他先验知识, 我们还可以额外引入M个如下形式的约束:Efi(x,y)=Ê fi(x,y),fi(x,y),i=1,2,...,M, Ê 是训练集上的经验期望.

我们来分析上述约束条件. 首先, 约束(3)可以等价转换为:∑x,yfi(x,y)[p̂ (x,y)−p(x)p(y|x)]=0.再由约束(1), 将目标函数以及约束条件中的所有p(x)用p̂ (x)替换, 我们最终得到如下形式的约束最优化问题:s.t.minp∑x,yp̂ (x)p(y|x)lnp(y|x)∑yp(y|x)=1∑x,yfi(x,y)[p̂ (x,y)−p̂ (x)p(y|x)]=0,i=1,2,...,M.注意, 这一个凸最优化问题.

引入拉格朗日乘子, 构造拉格朗日函数:L(α,β,p)=−H(p)−α⎛⎝⎜⎜∑yp(y|x)−1⎞⎠⎟⎟−∑i∑x,yβifi(x)[p̂ (x,y)−p̂ (x)p(y|x)]

利用∂L∂p(y|x)=0可以得到(推导过程很复杂, 可以参考文献[1]):p(y|x)=e∑iβifi(x,y)∑ye∑iβifi(x,y)

此即最大熵模型. 参数β可以通过求解拉格朗日对偶问题或者等价地利用极大似然估计解出.

3. 逻辑斯蒂回归与最大熵模型的等价性

在最大熵模型中, 令:⎧⎩⎨⎪⎪⎪⎪Ω={0,1}M=2f1(x,y)=yf2(x,y)=xy 即可得到逻辑斯蒂回归模型.

附录: 线性回归, GLM以及GAM

设 X,Y是具有相关关系的两个随机变量, 且Y的分布取决于X的观察值, 即Y=Y(x). 为了刻画出X和Y的关系, 我们通常使用简单的线性回归模型:y=α0+α1x1+α2x2+⋯+αnxn,或简写为y=α⋅x其中参数向量α的值通常使用最小二乘法求出.

有时, 线性回归过于简单的形式不足以将X,Y之间的复杂关系描述清楚, 因此我们将等式左侧替换为回归变量Y(x)(或其期望EY)的函数:L(EY)=α⋅x.此即广义线性模型(GLM), 函数L即连接函数. 例如, logistic回归就是一种广义线性模型, 其连接函数为logit函数.

我们还可以将GLM进一步泛化. 保留等式左侧不变, 将等式右侧xi替换模型b(xi), 即可得到广义加性模型(GAM):L(EY)=α0+α1f(x1)+α2f(x2)⋯αnf(xn)

参考文献

[1]. <统计学习方法>
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息