您的位置:首页 > 其它

逻辑斯谛回归与最大熵分类模型

2017-08-17 21:28 751 查看

1 逻辑斯谛算法

1.1 工作原理

逻辑斯谛是一种最优化算法。根据现有数据对分类边界线建立回归公式,相当于找出一些拟合参数,将两类数据尽可能的分开。为了实现回归分类,我们给每个特征分配一个回归系数,然后把所有结果相加,为了能让这个结果可以表示分类,我们另外使用一个阶跃函数Sigmoid,将结果带入,函数可以使输出范围控制在0-1之间,大于0.5分为1类,小于0.5分为0类。

1.2 三要素

模型:条件概率模型、对数线性函数决策模型

策略:对数似然函数最大化、逻辑斯谛损失(预测值与真实值的差)

算法:梯度下降算法

注:随机梯度下降算法更快速,不容易陷入局部最优解。

条件概率模型和对数线性模型可以相互转化,即表示为输出Y=1的对数几率是输入x的线性函数。

优点:计算代价不高,易于理解和实现。

缺点:容易欠拟合,分类精度不高

2 最大熵模型

2.1 工作原理

最大熵原理认为,学习概率模型时,熵最大的模型时最好的模型。表述为在满足约束条件的模型集合中选择熵最大的模型。0 <= H(P) <= log |X|  ,X服从均匀分布时,熵最大。我们将约束最优化原始问题转换为无约束最优化的对偶问题,求解对偶函数的极大化(等价于极大似然估计)。

2.2 三要素

模型:最大熵决策模型

策略:极大似然估计学习参数,求解最优化问题

算法:改进的迭代尺度法、拟牛顿法

2.3 对偶化

对原约束最优化问题,引入拉格朗日乘子,定义拉格朗日函数,原始问题为min max L(P,w) 转换为对偶问题max min L(P,w),由于L(P,w)是凸函数,所以原问题与对偶问题的解释等价的。min L(P,w)可以通过求偏导数计算,之后求解对偶函数的最大化,这里可以应用最优化算法改进的迭代尺度法等。

2.4 最优化算法

对偶函数的极大化 = 对数似然函数的极大化 = 最大熵极大似然估计

2.4.1 改进的迭代尺度法(IIS)

假设最大熵模型当前的参数向量是w,我们希望得到一个新的参数向量w+§,使得模型的对数似然函数增大。如果有这样一种参数更新方法w→w+§,那么就可以迭代找到函数最大值。

对数似然函数改变量:L(w+§) - L(w) >= A(§|w) >= B(§|w)

对改变量的下界B求偏导,得出§,通过提高下界B,不断优化函数值,最终求得对数似然函数的最大值。

2.4.2 拟牛顿法

0

优点:不需要考虑如何使用特征,特征可以灵活选择,不需要独立性假设

缺点:计算量巨大

参考资料:统计学习方法(李航)、机器学习实战(Peter)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: