您的位置:首页 > 其它

【机器学习-西瓜书】三、逻辑回归(LR);线性判别分析(LDA)

2017-08-24 14:49 1536 查看
推荐阅读: 逻辑回归(LR);线性判别分析(LDA);类别不平衡(class-imbalance)

3.3对数几率回归(logistic regression,逻辑回归)

关键词:逻辑回归,对数几率回归(logistic regression)

这里先说一下逻辑回归,逻辑斯蒂回归,对数几率回归,其实都是说的一个东西,Logistic Regression。

上一小节讲到,线性模型是让f(x)=wTx+b 去逼近y。当考虑让线性模型去逼近y的衍生物,lny 时,就得到一个对数线性回归模型。那么对数几率回归呢? 让 wTx+b 去逼近什么呢?那就是让wTx+b 去逼近一个y的对数几率函数,也就是这个形式:lny1−y=wTx+b ,其中 y1−y就是几率(odds),反映了x为正样本的可能性。对几率再取对数就得到对数几率 ,那么对数几率回归就是让 wTx+b去逼近 lny1−y。即lny1−y=wTx+b, 。通常我们不是写成这个形式的,稍微做一下转换,就得到我们熟悉的Logistic Regression的形式:y=11+ewTx+b 。其实就相当于线性模型的输出加了一个激活函数,这个激活函数就是大名鼎鼎的sigmoid函数,其实也叫做logistic function,所以Logistic Regression中的Logistic是出自 Logistic function,而Logistic function 就是我们常说的sigmoid函数。此函数可以把x映射到(0,1),恰恰符合我们的概率取值。

3.4 线性判别分析(Linear Discriminant Analysis, LDA)

关键词:线性判别分析(LDA),类内散度矩阵,类间散度矩阵,广义瑞利商。

LDA的思想非常朴素:给定训练集,设法找到一个投影,这个投影可将样本投影到一条直线上,使得同类样本的投影点尽可能接近、异类样本的投影点尽可能的远离;对新样本分类时,将新样本投影到此直线上,再依据投影点的位置来确定类别。假设一个二分类问题,LDA投影示意图:



再重复一下,LDA是要找一个投影,这个投影要使得:1. 类内距离要小。 2.异类距离要远。如何量化这两个要求呢?第一个,类内距离,我们可以使用协方差矩阵来衡量,则投影后的类内距离用 wTΣ0w来衡量,其中 Σ0是第0类的协方差矩阵(在此仅考虑二分类问题)。第二个,异类距离,可以采用类别中心之差来衡量,即∥∥wTμ0−wTμ1∥∥2,其中μ0,μ1 分别是第0类和第1类的均值向量。那么我们的目标方程就是:


定义 Sw=Σ0+Σ1 为类内散度矩阵(within-class scatter matrix)

Sb=(μ0−μ1)(μ0−μ1)T为类间散度矩阵(between-class scatter matrix),则目标方程可以改写为maxJ=wTSbwwTSww,这个J就是 Sb与 Sw的广义瑞利商(generalized Rayleigh quotient)

3.6 类别不平衡问题(imbalance)

关键词:类别不平衡(class-imbalance)

针对类别不平衡问题,现有技术分为三类做法:

1. 对样本过多的类别进行欠采样(undersampling)

2. 对 样本少的类别进行过采样(oversampling)

3. 直接学习,然后采取阈值移动(threshold-moving)的方法来决策

过采样代表算法:SMOTE(Chawlaet al.2002),欠采样代表算法:EasyEnsemble(Liu et al., 2009)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐