逻辑斯谛回归与最大熵分类模型
2017-08-17 21:28
751 查看
1 逻辑斯谛算法
1.1 工作原理逻辑斯谛是一种最优化算法。根据现有数据对分类边界线建立回归公式,相当于找出一些拟合参数,将两类数据尽可能的分开。为了实现回归分类,我们给每个特征分配一个回归系数,然后把所有结果相加,为了能让这个结果可以表示分类,我们另外使用一个阶跃函数Sigmoid,将结果带入,函数可以使输出范围控制在0-1之间,大于0.5分为1类,小于0.5分为0类。
1.2 三要素
模型:条件概率模型、对数线性函数决策模型
策略:对数似然函数最大化、逻辑斯谛损失(预测值与真实值的差)
算法:梯度下降算法
注:随机梯度下降算法更快速,不容易陷入局部最优解。
条件概率模型和对数线性模型可以相互转化,即表示为输出Y=1的对数几率是输入x的线性函数。
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度不高
2 最大熵模型
2.1 工作原理最大熵原理认为,学习概率模型时,熵最大的模型时最好的模型。表述为在满足约束条件的模型集合中选择熵最大的模型。0 <= H(P) <= log |X| ,X服从均匀分布时,熵最大。我们将约束最优化原始问题转换为无约束最优化的对偶问题,求解对偶函数的极大化(等价于极大似然估计)。
2.2 三要素
模型:最大熵决策模型
策略:极大似然估计学习参数,求解最优化问题
算法:改进的迭代尺度法、拟牛顿法
2.3 对偶化
对原约束最优化问题,引入拉格朗日乘子,定义拉格朗日函数,原始问题为min max L(P,w) 转换为对偶问题max min L(P,w),由于L(P,w)是凸函数,所以原问题与对偶问题的解释等价的。min L(P,w)可以通过求偏导数计算,之后求解对偶函数的最大化,这里可以应用最优化算法改进的迭代尺度法等。
2.4 最优化算法
对偶函数的极大化 = 对数似然函数的极大化 = 最大熵极大似然估计
2.4.1 改进的迭代尺度法(IIS)
假设最大熵模型当前的参数向量是w,我们希望得到一个新的参数向量w+§,使得模型的对数似然函数增大。如果有这样一种参数更新方法w→w+§,那么就可以迭代找到函数最大值。
对数似然函数改变量:L(w+§) - L(w) >= A(§|w) >= B(§|w)
对改变量的下界B求偏导,得出§,通过提高下界B,不断优化函数值,最终求得对数似然函数的最大值。
2.4.2 拟牛顿法
0
优点:不需要考虑如何使用特征,特征可以灵活选择,不需要独立性假设
缺点:计算量巨大
参考资料:统计学习方法(李航)、机器学习实战(Peter)
相关文章推荐
- 逻辑斯谛回归与最大熵模型
- 逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model
- 《统计学习方法》笔记(6):逻辑斯谛回归&最大熵模型
- 统计学习方法 第6章 逻辑斯谛回归与最大熵模型(1)
- 统计学习方法笔记:逻辑斯谛回归与最大熵模型(上)
- 统计学习方法笔记:逻辑斯谛回归与最大熵模型(下)
- 统计学习方法 6-逻辑斯谛回归与最大熵模型
- 逻辑斯谛回归与最大熵模型-《统计学习方法》学习笔记
- 统计学习方法 第6章 逻辑斯谛回归与最大熵模型(2)
- [ML] 逻辑斯谛回归与最大熵模型
- 机器学习总结(二)——逻辑斯谛回归和最大熵模型
- 对数线性模型:逻辑斯谛回归和最大熵模型
- 逻辑斯谛回归与最大熵模型
- <统计学习方法>5 逻辑斯蒂回归与最大熵模型
- 初学ML笔记N0.1——线性回归,分类与逻辑斯蒂回归,通用线性模型
- 逻辑斯蒂回归与最大熵模型----《统计学习方法》第6章
- 机器学习(二)广义线性模型:逻辑回归与Softmax分类
- 初学ML笔记N0.1——线性回归,分类与逻辑斯蒂回归,通用线性模型
- 逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)
- 初学ML笔记N0.1——线性回归,分类与逻辑斯蒂回归,通用线性模型