您的位置：首页 > 其它

逻辑斯蒂回归模型与最大熵模型

2016-03-28 21:18 281 查看

逻辑斯蒂回归模型
逻辑斯蒂回归是统计学习的经典分类方法.
最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型
逻辑斯谛模型和最大熵模型都属于对数线性模型

逻辑斯蒂分布

分布函数：

F(X)= p( X <= x ) = 1 / (1 + exp(-(x-u)/γ))

密度函数：

f(x)= F`(x) = exp(-(x-u)/γ) / γ(1 + exp(-(x-u)/γ))2

式中：u为位置参数，γ >0为形状参数（γ越小，曲线在中心增长越快）

二项逻辑斯蒂回归模型

P(Y=1 l x)=exp(w*x+b) / [1+exp(w*x+b)]

P(Y=0 l x)= 1 / [1+exp(w*x+b)]

有时为了方便，将b并入w向量中

最后写成：

P(Y=1 l x)=exp(w.*x) / [1+exp(w*x)]

P(Y=0 l x)= 1 / [1+exp(w.*x)]

给定实例，可以分别求得P（Y=1）和P（Y=0）的值，将实例分配到概率较大的一方

事件发生几率（odds）

如果事件发生概率为p，那么该事件的几率是 p / (1-p)

对数几率或logit函数：

logit(p)=log [p /(1-p) ]

对于逻辑斯蒂回归而言

log [ P(Y-1) / [1-P(y=1)] ]=w.*x

模型参数估计

即令L'(w)=0

多项逻辑斯蒂回归

上述介绍的逻辑斯蒂回归是二项分类模型，用于二类分类
推广至多项逻辑斯蒂回归模型，用于多类分类

同理，偏导为0，求参数

最大熵模型

最大熵原理

概率分布 P（x）
H（P）= - ∑ P（x）log P（x）
熵满足下列不等式
0 小于等于H（P）小于等于log l X l
l X l是X的取值个数，当且仅当X的分布式均匀时右边的等号成立.
X服从均匀分布时，熵最大

最大熵模型的定义

我们的约束优化问题是：

我们将这个称为原始问题（primal）。简单的讲，我们目标是在满足以下约束的情况下，最大化H(p)。

显然概率和为1

假设训练数据与模型的P（X）的期望相同，f（x）是特征函数

为了解决这个优化问题，引入Lagrangian 乘子。

实值参数

和

对应施加在解上的n+1个约束。

引入一个例子：

最大熵模型的极大似然估计等价于对偶函数的极大化

最大熵模型与逻辑斯蒂回归模型有类似的形式—称为对数线性模型
模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计

模型学习的最优化算法

逻辑斯蒂和最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解。
同时目标函数是光滑的凸函数，许多最优化方法都适用来找到全局最优解
改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法

改进的迭代尺度法（IIS）：

IIS的推导过程

IIS是一种最大熵学习模型的最优化算法，其推导过程如下：

目标是通过极大似然估计学习模型参数求对数似然函数的极大值

。

IIS的想法是：假设最大熵模型当前的参数向量是λ = (λ1, λ2, …, λn)T，我们希望找到一个新的参数向量λ + δ= (λ1+δ1, λ2+δ2, …, λn+δn)T，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法F：λ ->λ+δ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

对于给定的经验分布