您的位置：首页 > 其它

线性分类器之Fisher线性判别

2016-10-22 15:59 155 查看

在前文《贝叶斯决策理论》中已经提到，很多情况下，准确地估计概率密度模型并非易事，在特征空间维数较高和样本数量较少的情况下尤为如此。

实际上，模式识别的目的是在特征空间中设法找到两类（或多类）的分类面，估计概率密度函数并不是我们的目的。

前文已经提到，正态分布情况下，贝叶斯决策的最优分类面是线性的或者是二次函数形式的，本文则着重讨论线性情况下的一类判别准则——Fisher判别准则。

为了避免陷入复杂的概率的计算，我们直接估计判别函数式中的参数（因为我们已经知道判别函数式是线性的）。

首先我们来回顾一下线性判别函数的基本概念：

表达形式：

g(x)=ωTx+ω0

其中，x是d维特征向量；ω称为权向量，决定分类面的方向；ω0是个常数，称为阈权值。

x=[x1,x2,...,xd]T,ω=[ω1,ω2,...,ωd]T

关于ω和ω0的作用，大家可以考虑一下二维空间，则其分别对应于斜率和截距，事实上，高维空间亦是如此。

对于两类问题的决策规则：

令g(x)=g1(x)−g2(x)（分别为第一类和第二类的判别函数，具体定义见前文），则

g(x)>0,x∈ω1

g(x)<0,x∈ω2

g(x)=0,x可归入任意一类，或者拒绝

可以看出，方程g(x)=0定义了一个决策面，它把归类于ω1类的点和归类于ω2的点分割开来，从而完成分类的目的。

Fisher线性判别：

Fisher决策的出发点是：把所有的样本都投影到一维空间，使得在投影线上最易于分类。

那什么是最易于分类的投影面呢？我们希望这个投影面是这样的：

投影后两类相隔尽可能远，而对同一类的样本又尽可能聚集。

基于这个出发点，我们需要算出最佳的投影方向。如下图，右侧的投影面则优于左侧的投影面，因为它将两个类别更好地分开。

为了求出这个最佳投影面，我们要引入离散度矩阵的概念：

首先一些基本定义：

样本集：X={x1,x2,...,xN}，ω1类：X1={x11,x12,...,x1N}，ω2类：X2={x21,x22,...,x2N}，投影函数：yi=ωTxi,i=1,2,...,N

离散度矩阵：

在X空间：

- 类均值向量：mi=1NiΣxj∈Xixj,i=1,2

- 类内离散度矩阵：Si=Σxj∈Xi(xj−mi)(xj−mi)T,i=1,2

- 总类内离散度矩阵：Sw=P(ω1)S1+P(ω2)S2

- 类间离散度矩阵：Sb=P(ω1)P(ω2)(m1−m2)(m1−m2)T

在Y空间：

- 类均值：m∗i=1NiΣyj∈Yiyj,i=1,2

- 类内离散度矩阵：S∗i=Σyj∈Yi(yj−m∗i)(yj−m∗i)T,i=1,2

- 总类内离散度矩阵：S∗w=S∗1+S∗2

- 类间离散度矩阵：S∗b=(m∗1−m∗2)2

Fisher准则函数：

maxJF(ω)=(m∗1−m∗2)S∗1+S∗2

实际上，Fisher准则函数就是使得类间离散度尽可能大，而类内离散度尽可能小，这样就能够使得两类之间尽可能分开，各类的内部又能尽可能聚集。

Fisher准则函数的求解：

带入y=ωTx ，得

maxJF(ω)=ωTSbωωTSwω

ω∗:maxωJF(ω)

令分母 ωTSwω=c≠0，为常数，最大化分子，利用拉格朗日乘数法定理，有：ω∗=S−1w(m1−m2)

确定了ω我们也就确定了决策面的方向，下一步计算阈权值ω0：

（1）通常来讲，阈权值可以根据经验来选择：

ω0=−12(m∗1+m∗2)

ω0=−m∗

ω0=−12(m1+m2)TS−1W(m1−m2)−ln(P(ω1)P(ω2))

（2）d和N很大时，y近似正态分布，可在Y空间内用贝叶斯分类器确定ω0。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 模式识别 Fisher 线性判别器

相关文章推荐

新的分享

章节导航