您的位置：首页 > 其它

特征选择（四）-分散度

2016-01-09 21:14 246 查看

度量类别可分离性的量主要有：

欧氏距离（正态分布，协方差相等。且为单位阵）

是最简单的一种描写叙述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。

马氏（Mahalanobis）距离（正态分布，协方差相等）

它用来描写叙述两个具有同样的协方差矩阵C，不同的期望值
$ {m_1}$
和的
$ {m_2}$
类别之间的不相似性。详细表达式是：

Mahalanobis距离

$ {({m_2} - {m_1})^T}{C^{ - 1}}({m_2} - {m_1})$

巴氏（Bhattacharyya）距离（正态分布。协方差不等）

它描写叙述了两个协方差矩阵和期望值都不同样的类别之间的不相似性：

Bhattacharyya距离

$\frac{1}{8}{({m_2} - {m_1})^T}{\left[ {\frac{{{C_1} + {C_2}}}{2}} \right]^{ - 1}}({m_2} - {m_1}) + \frac{1}{2}\ln \frac{{\left| {\frac{1}{2}({C_1} + {C_2})} \right|}}{{{{\left| {{C_1}} \right|}^{\frac{1}{2}}}{{\left| {{C_2}} \right|}^{\frac{1}{2}}}}}$

本节介绍分散度（广义距离），之所以是广义距离。由于其不满足三角不等式。

设有未知模式x，可能来自第i类，也可能来自第j类，而且概率密度分布分别为：

$\begin{array}{l}{P_i}(x) = P(x|{\omega _i})\\{P_j}(x) = P(x|{\omega _j})\end{array}$

在贝叶斯决策中，对数似然比是用来决定最后分类的指标

$ {u_{ij}}(x) = \ln \frac{{{P_j}(x)}}{{{P_i}(x)}}$

绘制似然比的密度函数可见。假设密度函数期望值相隔越远。分类器效果会更好。

如图1所看到的。

图1

因此能够用两个期望值之差来表示两个类别间的差异：

$\begin{array}{l}E({u_{ij}}|{\omega _i}) - E({u_{ij}}|{\omega _j}) = E(\ln \frac{{{P_i}(x)}}{{{P_j}(x)}}|{\omega _i}) - E(\ln \frac{{{P_j}(x)}}{{{P_i}(x)}}|{\omega _j})\\ = \int_x {{P_i}(x)} \ln \frac{{{P_i}(x)}}{{{P_j}(x)}}dx - \int_x {{P_j}(x)} \ln \frac{{{P_j}(x)}}{{{P_i}(x)}}dx\\ = \int_x {[{P_i}(x) - {P_j}(x)]} \ln \frac{{{P_i}(x)}}{{{P_j}(x)}}dx\\{\rm{ = }}{J_{ij}}\end{array}$

这就是分散度的定义了。

正态分布下的分散度公式

在两个类别都具有正态分布时，分散度能够有明白的表达式，概率密度分别为：

$\begin{array}{l}{P_i}(x) = \frac{1}{{{{(2\pi )}^{\frac{n}{2}}}{{\left| {{C_i}} \right|}^{\frac{1}{2}}}}}\exp \{ - \frac{1}{2}{(x - {m_i})^T}{C_i}^{ - 1}(x - {m_i})\} \\{P_j}(x) = \frac{1}{{{{(2\pi )}^{\frac{n}{2}}}{{\left| {{C_j}} \right|}^{\frac{1}{2}}}}}\exp \{ - \frac{1}{2}{(x - {m_j})^T}{C_j}^{ - 1}(x - {m_j})\} \end{array}$

对数似然比为：

$ \begin{array}{l}{u_{ij}} = \ln \frac{{{P_i}(x)}}{{{P_j}(x)}}\\ = \frac{1}{2}\ln \frac{{\left| {{C_j}} \right|}}{{\left| {{C_i}} \right|}} - \frac{1}{2}tr[{C_i}^{ - 1}(x - {m_i}){(x - {m_i})^T}] + \frac{1}{2}tr[{C_j}^{ - 1}(x - {m_j}){(x - {m_j})^T}]\end{array}$

能够得到正态分布下的分散度为：

$ {J_{ij}} = \frac{1}{2}tr[({C_i} - {C_j})({C_j}^{ - 1} - {C_i}^{ - 1})] + \frac{1}{2}tr[({C_i}^{ - 1} + {C_j}^{ - 1})({m_i} - {m_j}){({m_i} - {m_j})^T}]$

这个式子是配凑出来的，为了分离出两个重要的指标：

前一部分是由协方差不等引起的分散，后面一部分是由期望不等引发的分散。

1. 等协方差时

${J_{ij}} = tr[{C^{ - 1}}({m_i} - {m_j}){({m_i} - {m_j})^T}] = {({m_i} - {m_j})^T}{C^{ - 1}}({m_i} - {m_j}) = {r_{ij}}$

分散度蜕化成了马氏距离。

2.等期望时

${J_{ij}} = \frac{1}{2}tr[({C_i} - {C_j})({C_j}^{ - 1} - {C_i}^{ - 1})]$

当两个类别协方差距离不同一时候期望值之差的影响能够用一个等效的协方差矩阵来计算。

Bhattacharyya距离的计算中。是用算术平均作为这个等效协方差矩阵：

$\frac{1}{2}({C_i} + {C_j})$

而在分散度的计算中。则是用它们的几何平均作为这个等效协方差矩阵：

$ {[\frac{1}{2}({C_i}^{ - 1} + {C_j}^{ - 1})]^{ - 1}}$

分散度的性质

$ \begin{array}{l}{J_{ij}} = \frac{1}{2}tr[({C_i} - {C_j})({C_j}^{ - 1} - {C_i}^{ - 1})] + \frac{1}{2}tr[({C_i}^{ - 1} + {C_j}^{ - 1})({m_i} - {m_j}){({m_i} - {m_j})^T}]\\ = \frac{1}{2}tr({C_i}{C_j}^{ - 1}) + \frac{1}{2}tr({C_j}{C_i}^{ - 1}) - n + \frac{1}{2}tr[{C_i}^{ - 1}({m_i} - {m_j}){({m_i} - {m_j})^T}]\\ + \frac{1}{2}tr[{C_j}^{ - 1}({m_i} - {m_j}){({m_i} - {m_j})^T}]\\ = \frac{1}{2}\sum\limits_{i = 1}^n {{\lambda _i}} + \frac{1}{2}\sum\limits_{i = 1}^n {\frac{1}{{{\lambda _i}}}} - n + \frac{1}{2}{\lambda _{n + 1}} + \frac{1}{2}{\lambda _{n + 2}}\end{array}$

当中：

$\begin{array}{l}{C_i}{C_j}^{ - 1} \Rightarrow {\lambda _1} \ldots {\lambda _n}\\{C_j}{C_i}^{ - 1} \Rightarrow \frac{1}{{{\lambda _1}}} \ldots \frac{1}{{{\lambda _n}}}\\{C_i}^{ - 1}({m_i} - {m_j}){({m_i} - {m_j})^T} \Rightarrow {\lambda _{n + 1}}\\{C_j}^{ - 1}({m_i} - {m_j}){({m_i} - {m_j})^T} \Rightarrow {\lambda _{n + 2}}\end{array}$

由此可知

1.

${J_{ij}} \ge 0$

2.对称性

${J_{ij}} = {J_{ji}}$

3.若各个分量独立，则分散度为各个分量分散度之和。

4.若各个分量不独立。则加一个分量，分散度仅仅增不减。

怎样将分散度应用与特征选择？

分散度特征选择优于聚类变换和最优描写叙述的K-L变换。以下分三种情况讨论。

其一：简单从n个特征中挑选m个

这样的方式直接挑就好了。不用做不论什么坐标变换。

首先，如果有n维、M类，先分别求出其相应的M个期望和协方差矩阵。

因为分散度仅仅能计算2个类之间的关系，因此要反复计算
$C_M^2$
次。

把最小的找出来，相相应于近期的2类。

$ {J_{\min }}\left( {{x_1},{x_2}, \ldots ,{x_n}} \right)$

由于假设近期的2类都能分开。其它的类别分开也就不成问题了。如图2所看到的。

图2

其次。看看要求是什么。要从原来的n维降到多少维，比如要想降到k维，则咱们继续排列组合了。

把全部的降维组合列出来。共同拥有
$ C_n^k$
多种。

再来计算全部组合情况下。降维后的分散度。取

$\max \left\{ {{J_{\min }}\underbrace {\left( { \ldots ,{x_p}, \ldots ,{x_q}} \right)}_k} \right\}$

取分散度最大的k个维度保留下来，由于这些维度的对分类的效果最好。

可是假设发现分散度已经非常小了。那么就要减少要求了，少降几维。

假设分散度下降不多，那么其它的维度直接扔掉就好，不用可惜。

这种方法特点就是特别方便。并且还非常有效，对于正态分布是这种。如图3所看到的。

图3

其二：正态分布、各类的协方差相等

此时使用了分散度分类方法，本质是把坐标转到C的特征向量位置后进行降维。

同一时候。分散度蜕化成为了Mahalanobis距离

$ {J_{ij}} = {\left( {{m_i} - {m_j}} \right)^T}{C^{ - 1}}\left( {{m_i} - {m_j}} \right) = {r_{ij}}$

取协方差矩阵的特征向量和特征值，取当中m个特征向量，构成变换矩阵：

$A = \left[ {\begin{array}{*{20}{c}}{\Phi _1^T}\\ \vdots \\{\Phi _m^T}\end{array}} \right] \Rightarrow \left\{ \begin{array}{l}m_i^* = A{m_i}\\m_j^* = A{m_j}\end{array} \right.$

$ {C^ * } = AC{A^T} = \left( {\begin{array}{*{20}{c}}{{\lambda _1}}&{...}&0\\ \vdots & \ddots & \vdots \\0& \cdots &{{\lambda _m}}\end{array}} \right) \Rightarrow {({C^ * })^{ - 1}} = \left( {\begin{array}{*{20}{c}}{\frac{1}{{{\lambda _1}}}}&{...}&0\\ \vdots & \ddots & \vdots \\0& \cdots &{\frac{1}{{{\lambda _m}}}}\end{array}} \right)$

变换之后的马氏距离变为

${J_{ij}}^ * = {r_{ij}}^ * = {({m_i}^ * - {m_j}^ * )^T}{C^{^{ - 1}}}^ * ({m_i}^ * - {m_j}^ * )$

又有

$ \begin{array}{l}{m_{ik}}^ * = {(A{m_i})_k} = {\Phi _k}^T{m_i}\\ \Rightarrow {({m_i}^ * - {m_j}^ * )_k} = {\Phi _k}^T({m_i} - {m_j})\end{array}$

则得到

$ {J_{ij}}^ * = \sum\limits_{k = 1}^m {[{\Phi _k}^T({m_i} - {m_j}){{({m_i} - {m_j})}^T}{\Phi _k}]/{\lambda _k}}$

取
${\Phi _k}^T({m_i} - {m_j}){({m_i} - {m_j})^T}{\Phi _k}/{\lambda _k}$
大的就可以。

注意观察此式：

假设不考虑分子。

那么就等同于
${\lambda _k}$
越小那么区分度越大，等同于与聚类变换。

2.
${\Phi _k}^T({m_i} - {m_j}){({m_i} - {m_j})^T}{\Phi _k} = ||{\Phi _k}^T({m_i} - {m_j})|{|^2}$

$\delta = ({m_i} - {m_j})$
为
${\Phi _k}$
在方向上投影长度的平方。

举个样例，如图4所看到的。

图4

两中心距离为
$\delta$
，从这个样例能够看出分散度优于聚类变换。

其三：最佳变换阵A的求法

前面讨论的全部降维方法都有一个问题，不知道大家是否发现了。

当我们从n维降到m时，都是直接扔掉不要的向量。

剩下的分量都没动，这不科学啊。

3为直角坐标系降1维后，一定是平面直角坐标系么？就不能降成2为斜角坐标系么？

这说明，降维后，能够用新的基向量来张成新的空间了。

原来，一般的问题是这种：寻找A的原则是寻找一个
$m \times n$
矩阵A，使得降为m维后。分散度为最大。即

$ \frac{{d{J_{12}}*}}{{dA}} \buildrel \Delta \over = 0$

直接上结论，这个A矩阵应当满足下式：

$ \begin{array}{l}G = \sum\limits_{k = 1}^m {(1 - \lambda _k^{ - 2})} ({C_1}{A^T} - {\lambda _k}{C_2}{A^T}){\phi _k}{\phi _k}^T\\ + (\sigma {\sigma ^T}{A^T} - {\lambda _{m + 1}}{C_1}{A^T}){\phi _{m + 1}}{\phi _{m + 1}}^T + (\sigma {\sigma ^T}{A^T} - {\lambda _{m + 2}}{C_2}{A^T}){\phi _{m + 2}}{\phi _{m + 2}}^T\\{\rm{ = }}\left( \phi \right)\end{array}$

即为满足G矩阵为零矩阵，这个方程仅仅能用数值方法求解，没有解析解。

当中的各个參数含义例如以下：

①
$ {\lambda _k}$
和
${\phi _k}$
是
$ {({C_2}*)^{ - 1}}{C_1}*$
的特征值和特征向量。并且已进行了归一。

②
$ {\lambda _{m + 1}}$
和
$ {\phi _{m + 1}}$
是
${({C_1}*)^{ - 1}}\sigma *\sigma {*^T}$
的特征值和特征向量，且已进行了归一；

③
$ {\lambda _{m + 2}}$
和
${\phi _{m + 2}}$
是
${({C_2}*)^{ - 1}}\sigma *\sigma {*^T}$
的特征值和特征向量。且已进行了归一。

仅讨论两种最特殊的情况：

1.协方差相等。期望不等

能够降到1维都不降低分散度。

当中a是
${C^{ - 1}}\delta {\delta ^T}$
的非零特征值相应的特征向量。

2.期望相等。协方差不等

当中变换矩阵由
$ C_2^{ - 1}{C_1}$
中任取m来构成。

可是为了保证分散度最大，应当取
$ C_2^{ - 1}{C_1}$
中使得

${\alpha _k} + \frac{1}{{{\alpha _k}}}$

最大的m个特征值构成A.

欢迎參与讨论并关注本博客和微博以及知乎个人主页，兴许内容继续更新哦~

转载请您尊重作者的劳动。完整保留上述文字以及本文链接，谢谢您的支持！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航