您的位置：首页 > 其它

透过表象看本质！？之二——除了最小p乘，还有PCA

2013-09-01 22:10 281 查看

透过表象看本质！？之二——除了最小p乘，还有PCA

分类：人工智能观测本质预测2013-08-19
16:46 166人阅读评论(1) 收藏举报

PCA 最小二乘法数据分析压缩人脸识别

如图1所示，最小p乘法求得是
$\min \sum\limits_{i = 1}^n {\left\| {{d_i}} \right\|_p^p}%$
，而真实值到拟合曲线的距离为
${d'_i}%$
。那么，
$\min \sum\limits_{i = 1}^n {\left\| {{d'_i}} \right\|_p^p}%$
对应的是什么样的数据分析呢？

图1 最小p乘法的使用的误差是
${d_i}%$
。真实值到拟合曲线的距离为
${d'_i}%$

假如存在拟合曲线，设直线方程为
$y = kx + b%$
。真实值
${X_i} = {\left( {{x_i},{y_i}} \right)^T}%$
到该曲线的投影点为
${X'_i} = {\left( {{x'_i},{y'_i}} \right)^T}%$
。p=2时，则两点之间的距离为

$\left\| {{{d'}_i}} \right\|_2^2 = \left\| {{X_i} - {{X'}_i}} \right\|_2^2%$

（37）

$I = \sum\limits_{i = 1}^n {\left\| {{X_i} - {{X'}_i}} \right\|_2^2}%$

（38）
点
${X'_i} = {\left( {{x'_i},{y'_i}} \right)^T}%$
在直线上，同时
$\left( {{X_i} - {{X'}_i}} \right) \bot \left( {1,k} \right)%$
。这两个条件构成如下方程组

$\left\{\begin{matrix} {\left( {{x_i} - {{x'}_i},{y_i} - {{y'}_i}} \right) \cdot \left( {1,k} \right) = 0}\\ {y' = kx' + b} \end{matrix}\right.%$

（39）
联立上述方程组求得

$\left\| {{{d'}_i}} \right\|_2^2 = \frac{1}{{1 + {k^2}}}{\left( {{y_i} - k{x_i} - b} \right)^2}%$

（40）
代入式（37）（38）得

$I = \sum\limits_{i = 1}^n {\frac{1}{{1 + {k^2}}}{{\left( {{y_i} - k{x_i} - b} \right)}^2}}%$

（41）
上式两边对b求偏导，令偏导数为零得

$\frac{{\partial I}}{{\partial b}} = \sum\limits_{i = 1}^n {\frac{{ - 2}}{{1 + {k^2}}}\left( {{y_i} - k{x_i} - b} \right)} = 0%$

（42）
化简为

$\sum\limits_{i = 1}^n {\left( {{y_i} - k{x_i} - b} \right)} = 0%$

（43）

$\sum\limits_{i = 1}^n {{y_i}} - k\sum\limits_{i = 1}^n {{x_i}} - nb = 0%$

（44）
令

${m_x} = \frac{1}{n}\sum\limits_{i = 1}^n {{x_i}}%$

（45）

${m_y} = \frac{1}{n}\sum\limits_{i = 1}^n {{y_i}}%$

（46）
将式（45）（46）代入式（44）得

$n{m_y} - nk{m_x} - nb = 0%$
（47）

$b = {m_y} - k{m_x}%$
（48）
因此，该直线通过均值点
$m = {\left( {{m_x},{m_y}} \right)^T}%$
，投影点可以改写为

${X'_i} = m + {e^T}({X_i} - m)e%$
（49）
其中e是直线方向的单位向量。将式（49）代入式（38）得

$I = \sum\limits_{i = 1}^n {\left\| {m + {e^T}({X_i} - m)e - {X_i}} \right\|_2^2}%$

$I = \sum\limits_{i = 1}^n {\left\| {{e^T}({X_i} - m)e} \right\|_2^2} + \sum\limits_{i = 1}^n { - 2{e^T}({X_i} - m){{({X_i} - m)}^T}e} + \sum\limits_{i = 1}^n {\left\| {({X_i} - m)} \right\|_2^2}%$

$I = - \sum\limits_{i = 1}^n {{e^T}({X_i} - m){{({X_i} - m)}^T}e} + \sum\limits_{i = 1}^n {\left\| {({X_i} - m)} \right\|_2^2}%$

化简为

$I = - {e^T}Se + \sum\limits_{i = 1}^n {\left\| {({X_i} - m)} \right\|_2^2}%$

（50）
其中
$S = ({X_i} - m){({X_i} - m)^T}%$
。上式中等号右边的第二项是个常量，不影响I取得极值时对应的e，可以去掉。同时，我们假设e是单位向量，则
$\left\| e \right\|_2^2 = 1%$
。重写I如下

$u = {e^T}Se + \lambda \left( {1 - {e^T}e} \right)%$

（51）
上式两边对e求导得

$\frac{{\partial u}}{{\partial e}} = 2Se - 2\lambda e = 0%$

（52）
化简得

$Se = \lambda e%$
（53）
上式成立时，u取得最大值，I取得最小值。对上两边同时除以（n-1），得到数据矩阵的协方差矩阵。
$\lambda%$
/(n-1)是协方差矩阵的特征值，e是对应的特征向量。上述推导过程可以较为简单的推广到m维空间。对特征值按降序排列，
${\lambda _1} \ge {\lambda _2} \ge ... \ge {\lambda _m}%$
，其中m为数据变量的维度。
${\lambda_1}%$
对应着数据的主方向。经过特征向量矩阵的映射，将协方差矩阵投影为对角阵，变量之间的相关性被消除，而数据方差最大的方向就是主方向。

当计算出数据协方差矩阵的特征向量后，我们计算贡献率

$pareto = \frac{{{\lambda _1} + {\lambda _2} + ... + {\lambda _k}}}{{{\lambda _1} + {\lambda _2} + ... + {\lambda _m}}} \ge 1 - \alpha%$

（54）
求出

${k^*} = \mathop {\arg pareto}\limits_k \left( k \right) \ge 1 - \alpha%$

（55）
使用前
${k^*}%$
个特征值和特征向量压缩原来的数据的表达空间，同时还能保证压缩后的数据矩阵损失最小。上述方法就是我们熟悉的PCA。

主方向线通过数据矩阵的均值点，这个点对应的是使用PCA做人脸识别时求出的均值脸。

总结一下PCA的推导过程，

1、去数据变量样本间的均值，并将该均值从数据矩阵中减去，得到零均值矩阵。

2、求零均值数据矩阵的协方差矩阵。

3、求协方差矩阵的特征向量和特征值。

4、按照一定的比例选择特征值和特征向量，实现降维。

上面推导的是线性关系的PCA，对于非线性的数据上面的方法可能会失效。解决方法，使用核函数将数据映射到高维再进行上述分析，这貌似就是kernel PCA。

同时，PCA分析的主方向通过数据的均值。而数据的均值很采样数据紧相关，如果数据中存在粗大误差，那么此时的均值不能反应真实的数据均值。如果不进行预处理，后续的PCA分析很可能会是错误的，达不到预期的效果。因此，对数据进行预处理是很必要的，剔除粗大误差后再进行PCA分析，貌似就是robust PCA。

在PCA推导的过程中，我们可以较为清晰地看到，如果将数据标签揉到推导中，修改优化的目标函数，我们应该能推导出SVM。因此，不同的误差定义，不同的优化目标函数推导出了不同的数据分析方法。无论这些怎么变换花样，其依托的数学思想都是一致的。

说到这里，我们差不多吧数据拟合相关的数据分析方法说了遍，但是说来说去关键问题还是没有触及，我们最关心最希望自动化的东西没有设计，那就是数据的模式，线性的还是非线性的，一阶的还是二阶的等等问题。因为，我们明明可以看到数据在图像上或者几何上呈现出了某种分布，但是却不能通过数学推导自动化的把它从数据中挖出来。

到底能不能是一个终极问题，这个系列的文章只能做个抛砖引玉，希望能够激发出大家的进一步迭代思考，也许这种模式对应的数学公式就在不远处。

未完待续

分享到：

上一篇：透过表象看

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航