您的位置:首页 > 其它

统计学习方法笔记:逻辑斯谛回归与最大熵模型(上)

2017-09-11 21:41 567 查看

感想

logistic regression它本身的原理非常好懂,对于二分类问题,其实就是一个sigmoid函数,把它的计算结果当成概率值,哪个大就分到那一类。对于多分类,本质上就是一个softmax函数,归一化后,输出当成概率值,哪个大就属于哪个类。本质上都是用拉格朗日乘法,然后转化成对偶问题求解的,这个方法跟SVM的求解方法没什么两样。但是对于模型的训练,我还是没弄明白牛顿法和拟牛顿法的真正要义,尽管我已经看了几遍了,还真佩服发明这种方法的人,以后有时间慢慢推敲这里面蕴含的深刻数学原理。

介绍

逻辑斯谛回归(logistic regression)是统计学习中的经典算法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

1.1  逻辑斯谛回归模型

1.1.1 逻辑斯谛分布

逻辑斯谛分布:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:



式中,μ为位置参数,ℽ>0为形状参数。



如图为逻辑斯谛分布的密度函数f(x)和分布函数F(x)。分布函数属于逻辑斯谛函数,其图形是一条S形曲线(sigmoid curve)。该曲线以点(μ,1/2)为中心对称,即满足



曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数ℽ的值越小,曲线在中心附近增长得越快。

1.1.2 二项逻辑斯谛回归模型

二项逻辑斯谛模型(binomial logistic regression model)是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。这里,随机变量X取值为实数,随机变量Y取值为1或0.我们通过监督学习的方法来估计模型参数。

逻辑斯谛回归模型:二项逻辑斯谛回归模型是如下的条件概率分布:



这里x∈Rn是输入,Y∈{0,1}是输出,w∈Rn和b∈R是参数,w称为权值向量,b称为偏置,w*x为w和x的内积。

对于给定的输入实例x,按照上式可以求得P(Y=1|x)和P(Y=0|x)。逻辑斯谛回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。

有时为了方便,将权值向量和输入向量加以扩充,仍记作w,x,即(w1,w2,…,wn,b)T,x=(x1,x2,..,xn,1)T。这时,逻辑斯谛回归模型如下:



现在考察逻辑斯谛回归模型的特点。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds)或logit函数是



对逻辑斯谛回归而言,



这就是说,在逻辑斯谛回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。

换一个角度看,考虑对输入x进行分类的线性函数w*x,其值域为实数域,注意,这里x∈R(n+1),w∈R(n+1).通过逻辑斯谛回归模型定义式可以将线性函数w*x转换为概率:



这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.这样的模型就是逻辑斯谛回归模型。

1.1.3 模型参数估计

逻辑斯谛回归模型学习时,对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)},其中,xi∈Rn,yi∈{0,1},可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。

设:    P(Y=1|x)=π(x), P(Y=0|x)=1-π(x).

似然函数为



对数似然函数为



对L(w)求极大值,得到w的估计值。

这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

假设w的极大似然估计值是w^,那么学到的逻辑斯谛回归模型为



1.1.4 多项逻辑斯谛回归

上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型(multi-nominallogistic regression model),用于多类分类。假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑斯谛回归模型是



这里,x∈R(n+1),wk∈R(n+1)

二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归。

1.2最大熵模型

最大熵模型由最大熵原理推导实现。

1.2.1 最大熵原理

最大熵原理是概率模型的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

 

假设离散型随机变量X的概率分布式P(X),则熵是



熵满足下列不等式:

0≤H(P)≤log⁡|X|

式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布式,熵最大。

直观地,最大熵认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能性”不容易操作,而熵则是一个可优化的数值指标。



图6.2提供了用最大熵原理进行概率模型选择的几何解释。概率模型几何P可由欧式空间中的单纯形表示,如左图的三角形(2-单纯形)。一个点代表一个模型,整个单纯形代表模型集合。右图上的一条直线对应于一个约束条件,直线的交集对应于满足所有约束条件的模型集合。一般地,这样的模型仍有无穷多个。学习的目的是在可能的模型集合中选择最优模型,而最大熵原理则给出最优模型选择的一个准则。

 

单纯形式在n维欧氏空间中的n+1个仿射无关的点的集合的凸包。

1.2.2 最大熵模型的定义

最大熵原理是统计学习的一般原理,将它应用到分类得到最大熵模型。



给定一个训练数据集

                                   T={(x1,y1),(x2,y2),…,(xN,yN)}

学习的目标是用最大熵原理选择最好的分类模型。

首先考虑模型应该满足的条件。给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,分别以P^(X,Y)和P^(X)表示。这里,



其中,v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数,v(X=x)表示训练数据中输入x出现的频数,N表示训练样本容量。

用特征函数f(x,y)描述输入x和输出y之间的某一个事实。其定义是



它是一个二值函数,当x和y满足这个事实时取值为1,否则取值为0.

特征函数f(x,y)关于经验分布P~(X,Y)的期望值,用Ep^*(f)表示。



特征函数f(x,y)关于模型P(Y|X)与经验分布P~(X)的期望值,用Ep(f)表示



如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即



我们将上式作为模型学习的约束条件。假如有n个特征函数fi(x,y),i=1,2,…,n,那么就有n个约束条件。

最大熵模型 假设满足所有约束条件的模型集合为



定义在条件概率分布P(Y|X)上的条件熵为



则模型集合C中条件熵H(P)最大的模型称为最大熵模型。式中的对数为自然对数。

1.2.3 最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。

对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}以及特征函数fi(x,y),i=1,2,…,n,最大熵模型的学习等价于约束最优化问题:



按照最优化问题的习惯,将求最大值问题改写为等价的求最小值问题:



求解约束最优化问题,所得出的解,就是最大熵模型学习的解。具体推导如下。

这里,将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。

 

首先,引进拉格朗日乘子w0,w1,w2,…,wn,定义拉格朗日函数L(P,w):



最优化的原始问题是



对偶问题是



由于拉格朗日函数L(P,w)是P的凸函数,原始问题的解与对偶问题的解是等价的。这样,可以通过求解对偶问题来求解原始问题。

首先,求解对偶问题内部的极小化问题minL(P,w),minL(P,w)是w的函数,将其记作



Ψ(w)称为对偶函数。同时,将其解记作



具体地,求L(P,w)对P(y|x)的偏导数



令偏导数等于0,在P~(x)>0的情况下,解得









Zw(x)称为规范化因子;fi(x,y)是特征函数;wi是特征的权值。由上式表示的模型Pw=Pw(y|x)就是最大熵模型。这里,w是最大熵模型中的参数向量。

之后,求解对偶问题外部的极大化问题



将其解记为w*,即



这就是说,可以应用最优化算法求对偶函数Ψ(w)的极大化。



三个约束条件

P(A)+P(B)=3/10

P(A)+ P(B)+ P(C)+ P(D)+ P(E)=1







1.2.4 极大似然估计

下面证明对偶函数的极大化等价于最大熵的极大似然估计。

已知训练数据的经验概率分布P~(X,Y),条件概率分布P(Y|X)的对数似然函数表示为



当条件概率分布P(y|x)是最大熵模型时,对数似然函数Lp^(Pw)为



再看对偶函数ψ(w)。可得



最后一步用到



可得



既然对偶函数ψ(w)等价于对数似然函数Lp^(Pw),于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计这一事实。

 

这样,最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以将最大熵模型写成更一般的形式。



这里,x∈Rn为输入,y∈{1,2,…,K}为输出,w∈Rn为权值向量,fi(x,y),i=1,2,…,n为任意实值特征函数。

最大熵模型与逻辑斯谛回归模型有类的形式,它们又称为对数线性模型(log linear model)。模型学习就是在给定的训练条件下对模型进行极大似然估计或正则化
的极大似然估计。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: