您的位置：首页 > 其它

【机器学习－西瓜书】三、逻辑回归（LR）；线性判别分析（LDA）

2017-08-24 14:49 1536 查看

推荐阅读：逻辑回归(LR)；线性判别分析(LDA)；类别不平衡（class-imbalance）

3.3对数几率回归（logistic regression，逻辑回归）

关键词：逻辑回归，对数几率回归（logistic regression）

这里先说一下逻辑回归，逻辑斯蒂回归，对数几率回归，其实都是说的一个东西，Logistic Regression。

上一小节讲到，线性模型是让f(x)=wTx+b 去逼近y。当考虑让线性模型去逼近y的衍生物，lny 时，就得到一个对数线性回归模型。那么对数几率回归呢？让 wTx+b 去逼近什么呢？那就是让wTx+b 去逼近一个y的对数几率函数，也就是这个形式：lny1−y=wTx+b ，其中 y1−y就是几率（odds），反映了x为正样本的可能性。对几率再取对数就得到对数几率 ，那么对数几率回归就是让 wTx+b去逼近 lny1−y。即lny1−y=wTx+b，。通常我们不是写成这个形式的，稍微做一下转换，就得到我们熟悉的Logistic Regression的形式：y=11+ewTx+b 。其实就相当于线性模型的输出加了一个激活函数，这个激活函数就是大名鼎鼎的sigmoid函数，其实也叫做logistic function，所以Logistic Regression中的Logistic是出自 Logistic function，而Logistic function 就是我们常说的sigmoid函数。此函数可以把x映射到（0，1），恰恰符合我们的概率取值。

3.4 线性判别分析（Linear Discriminant Analysis, LDA）

关键词：线性判别分析（LDA），类内散度矩阵，类间散度矩阵，广义瑞利商。

LDA的思想非常朴素：给定训练集，设法找到一个投影，这个投影可将样本投影到一条直线上，使得同类样本的投影点尽可能接近、异类样本的投影点尽可能的远离；对新样本分类时，将新样本投影到此直线上，再依据投影点的位置来确定类别。假设一个二分类问题，LDA投影示意图：

再重复一下，LDA是要找一个投影，这个投影要使得：1. 类内距离要小。 2.异类距离要远。如何量化这两个要求呢？第一个，类内距离，我们可以使用协方差矩阵来衡量，则投影后的类内距离用 wTΣ0w来衡量，其中 Σ0是第0类的协方差矩阵（在此仅考虑二分类问题）。第二个，异类距离，可以采用类别中心之差来衡量，即∥∥wTμ0−wTμ1∥∥2，其中μ0,μ1 分别是第0类和第1类的均值向量。那么我们的目标方程就是：

定义 Sw=Σ0+Σ1 为类内散度矩阵（within-class scatter matrix）

Sb=(μ0−μ1)(μ0−μ1)T为类间散度矩阵（between-class scatter matrix），则目标方程可以改写为maxJ=wTSbwwTSww，这个J就是 Sb与 Sw的广义瑞利商（generalized Rayleigh quotient）

3.6 类别不平衡问题（imbalance）

关键词：类别不平衡（class-imbalance）。

针对类别不平衡问题，现有技术分为三类做法：

1. 对样本过多的类别进行欠采样（undersampling）

2. 对样本少的类别进行过采样（oversampling）

3. 直接学习，然后采取阈值移动（threshold-moving）的方法来决策

过采样代表算法：SMOTE（Chawlaet al.2002），欠采样代表算法：EasyEnsemble（Liu et al., 2009）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航