您的位置：首页 > 其它

线性分类器之Fisher线性判别函数

2014-06-05 14:29 176 查看

Fisher判别是一种应用极为广泛的线性分类的方法，基本思想是：把
$d$
维空间的所有模式投影到一条过原点的直线上，即将模式的维数压缩到一维，并要求统一类型的样本尽可能多地聚集在一起，不同类型的样本尽可能地分开。

如下图所示，两类模式的分布，它们的投影不论在
$x_{1}$
或
$x_{2}$
轴上都是混杂的，因此单纯取它们在
$x_{1}$
或
$x_{2}$
轴上的投影式不好分类的。但是，有可能存在一条直线AB，使得样本在它上面的投影很容易分开。

设给定两类模式的样本集
$\chi _{1}$
和
$\chi _{2}$
，它们有
$n_{1}$
和
$n_{2}$
个
$d$
维的样本。我们的目标就是找到一条直线，使得模式样本在这条直线上的投影最有利于分类。设
$W$
为这条直线正方向的单位向量，即
$\left \| W \right \|=1$
，于是有
$\chi _{1}$
和
$\chi _{2}$
到直线的投影得到相应的集合
$Y1$
和
$Y2$
，其中每个
$y\in Y_{i}$
就是
$X\in \chi _{i}$
在单位向量
$W$
的投影。于是就有：

$y = W^{T}X$

(1)
为了找到最有利于分类的方向
$W$
，需要建立一个准则函数，它能反映不同类别模式在这条直线投影分离程度的好坏。

为了使类别分离得好，应使各类模式投影均值彼此间的间距尽可能大。设
$m_{i}$
是第i类
$d$
维样本的均值：

$m_{i}=\frac{1}{n_{i}}\sum_{X\in \chi _{i}}^{ }X$

(2)

则这些样本在直线
$W$
上的投影的均值是：

$m_{i}^{*}=\frac{1}{n_{i}}\sum_{y\in Y_{i}}^{ }y = \frac{1}{n_{i}}\sum_{X\in \chi _{i}}^{ }W^{T}X = W^{T}m_{i}$

(3)
从而投影均值间的距离是：

$\left \| m_{1}^{*} - m_{2}^{*}\right \|=\left \| W^{T}(m_{1}-m_{2})\right \|$
(4)
因为
$m_{1}$
和
$m_{2}$
对于给定的两类样本集是不变的，所以只要改变
$W$
的方向，就可能改变投影均值间的距离。

为了使类别分离得好，还应使同类模式的投影比较密集。这里可以使用类内离散度来度量这个密集程度。定义一类模式投影的类内离散度(方差)为：

$S_{i}^{* 2}=\sum_{y\in Y_{i}}^{ }(y-m_{i}^{*})^{2}$

(5)

则两类的总的离散度为：

$S_{1}^{* 2}+S_{2}^{* 2}$

(6)

两类的类间离散度度为：

$S_{B}^{*}=(m_{1}^{*}-m_{2}^{*})(m_{1}^{*}-m_{2}^{*})^{^{T}}$

(7)

它代表了整个样本集合中各类样本投影的密集程度，为了得到更好的分类结果，应该选择直线
$W$
使得类内总的离散度尽可能小，类间离散度尽可能大。

综合上述考虑，构造Fisher判别函数：

$y = W^{T}X$

(8)

它使得准则函数：

$J(W)=\frac{\left \| m_{1}^{*}- m_{2}^{*}\right \|^{2}}{S_{1}^{*2}+S_{2}^{*2}}$

(9)

取得极大值。

将J(W)展开定义：

I.第i类离散度矩阵（协方差阵）

$S_{i}=\sum_{X\in \chi _{i}}^{ }(X-m_{i})(X-m_{i})^{T}$

(10)

II.类内离散度矩阵：

$S_{w}=S_{1}+S_{2}$

(11)

III.类间离散度矩阵:

$S_{B}=(m_{1}-m_{2})(m_{1}-m_{2})^{T}$

(12)

于是有

$S_{i}^{*2} =\sum_{X\in \chi _{i}}^{ }(W^{T}X-W^{T}m_{i})^{2}$

$=\sum_{X\in \chi _{i}}^{ }W^{T}(X-m_{i})(X-m_{i})^{T}W=W^{T}S_{i}W$

(13)

所以

$S_{1}^{*2}+S_{2}^{*2}=W^{T}S_{w}W$

(14)

又

$S_{B}^{*2}=\left \| m_{1}^{*}- m_{2}^{*}\right \|^{2}=(m_{1}^{*}- m_{2}^{*})(m_{1}^{*}- m_{2}^{*})^{T}$

$=(W^{T}m_{1}-W^{T}m_{2})(W^{T}m_{1}-W^{T}m_{2})^{T}$

$=W^{T}(m_{1}-m_{2})(m_{1}-m_{2})^{T}W=W^{T}S_{B}W$

(15)

根据上述推导，准则函数
$J(W)$
可以改写为

$J(W)=\frac{W^{T}S_{B}W}{W^{T}S_{W}W}$

(16)

利用Lagrange乘子法（拉格朗日乘子法），求取上式极大值，
$W$
必须满足

$W=S_{W}^{-1}(m_{1}-m_{2})$

(17)

(若
$S_{W}^{-1}$
不可逆，使用SVD求解伪逆)(也可以采用梯度下降法迭代)

这就是使得准则函数
$J(W)$
极大值解。
$W$
就是使得样本的投影在类间最分散，类内最集中地最优解。求取了
$W$
之后，任意待识别的样本
$X$
在
$W$
上的投影为

$y = W^{T}X$

这样就可以将
$d$
维空间的样本降维都一维空间，即在直线
$W$
上变成一维样本
$y$
。

然后计算一维空间上分类的阈值。设训练样本的数量分别对应为
$N_{1}$
和
$N_{2}$
，对两类样本的均值进行加权平均可以得到分类阈值。这里有三种确定阈值的方法：

I.

$b_{0}=-\frac{W^{T}(m_{1}+m_{2})}{2}$

II.

$b_{0}=-W^{T}\frac{N_{1}m_{1}+N_{2}m_{2}}{N_{1}+N_{2}}$

iii.

$b_{0}=-W^{T}\frac{(m_{1}+m_{2})}{2}-\frac{ln(P(\chi _{1})/P(\chi_{2}))}{N_{1}+N_{2}-2}$

(18)

分类判别为

$\begin{cases} & \text{ if }W^{T}X+b_{0}>0, X\in \chi _{1} \\ & \text{ if }W^{T}X+b_{0}<0, X\in \chi _{2} \end{cases}$

需要注意的是，这样得到的结果有一定局限，只是对准则函数最优，在许多情况下，结果不完全理想。另外它没有利用样本分布的信息，虽然计算简单，但是错误率不能达到最小。

由上可知，Fisher适合投影后线性可分的分类情况。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航