您的位置：首页 > 其它

逻辑斯谛回归与最大熵分类模型

2017-08-17 21:28 751 查看

1 逻辑斯谛算法

1.1 工作原理

逻辑斯谛是一种最优化算法。根据现有数据对分类边界线建立回归公式，相当于找出一些拟合参数，将两类数据尽可能的分开。为了实现回归分类，我们给每个特征分配一个回归系数，然后把所有结果相加，为了能让这个结果可以表示分类，我们另外使用一个阶跃函数Sigmoid，将结果带入，函数可以使输出范围控制在0-1之间，大于0.5分为1类，小于0.5分为0类。

1.2 三要素

模型：条件概率模型、对数线性函数决策模型

策略：对数似然函数最大化、逻辑斯谛损失（预测值与真实值的差）

算法：梯度下降算法

注：随机梯度下降算法更快速，不容易陷入局部最优解。

条件概率模型和对数线性模型可以相互转化，即表示为输出Y=1的对数几率是输入x的线性函数。

优点：计算代价不高，易于理解和实现。

缺点：容易欠拟合，分类精度不高

2 最大熵模型

2.1 工作原理

最大熵原理认为，学习概率模型时，熵最大的模型时最好的模型。表述为在满足约束条件的模型集合中选择熵最大的模型。0 <= H(P) <= log |X| ，X服从均匀分布时，熵最大。我们将约束最优化原始问题转换为无约束最优化的对偶问题，求解对偶函数的极大化（等价于极大似然估计）。

2.2 三要素

模型：最大熵决策模型

策略：极大似然估计学习参数，求解最优化问题

算法：改进的迭代尺度法、拟牛顿法

2.3 对偶化

对原约束最优化问题，引入拉格朗日乘子，定义拉格朗日函数，原始问题为min max L(P,w) 转换为对偶问题max min L(P,w)，由于L(P,w)是凸函数，所以原问题与对偶问题的解释等价的。min L(P,w)可以通过求偏导数计算，之后求解对偶函数的最大化，这里可以应用最优化算法改进的迭代尺度法等。

2.4 最优化算法

对偶函数的极大化 = 对数似然函数的极大化 = 最大熵极大似然估计

2.4.1 改进的迭代尺度法（IIS）

假设最大熵模型当前的参数向量是w，我们希望得到一个新的参数向量w+§，使得模型的对数似然函数增大。如果有这样一种参数更新方法w→w+§，那么就可以迭代找到函数最大值。

对数似然函数改变量：L(w+§) - L(w) >= A(§|w) >= B(§|w)

对改变量的下界B求偏导，得出§，通过提高下界B，不断优化函数值，最终求得对数似然函数的最大值。

2.4.2 拟牛顿法

0

优点：不需要考虑如何使用特征，特征可以灵活选择，不需要独立性假设

缺点：计算量巨大

参考资料：统计学习方法（李航）、机器学习实战（Peter）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航