您的位置:首页 > 其它

分类算法3----线性判别分析(LDA)原理和推导过程

2017-05-02 21:56 483 查看
线性判别分析用到方差分析和拉个朗日的相关知识,在介绍线性判别分析之前,先介绍方差分析和拉格朗日的相关知识,

然后介绍线性判别分析(LDA的推导过程)、最后利用马氏距离计算样本与两类的距离,对数据进行分类

1方差分析





2 拉个朗日法



3 线性判别分析(LDA)的推导过程

假设有两类数据红色和蓝色,我们想通过线性判别分析对这两类数据进行分类。图1可以看到没有很好的把数据分开,而图二可以很好的把数据分开,

线性判别分析的目的是求一个投影向量,这个投影向量可以很高的区分两类数据(针对二分类问题)











即可求得向量a

4 进行分类

       利用一些计算距离的方法分别计算样本与各个分类的距离,把样本分到距离较近的类中,但是计算距离的方式很多,

一下主要介绍马氏距离。

       马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。

对于一个均值为μ,协方差矩阵为Σ的多变量向量:

马氏距离表示成如下形式



定义:

       如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离,

马氏距离在回归分析中,是测量某一自变量的观测量与同一自变量所有观测量平均值差异的统计量,此值越大,说明该观测量为影响点的可能性越大。

欧氏距离的缺点

      我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。

欧氏马氏距离的优劣

马氏优缺点:
1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;
2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧氏距离计算即可。
3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧氏距离计算。
4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧氏距离的最大差异之处。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:它的缺点是夸大了变化微小的变量的作用。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息