您的位置：首页 > 其它

Joint Deep Learning For Pedestrian Detection（论文笔记-深度学习：行人检测）

2016-11-01 09:50 801 查看

一、摘要：
行人检测主要分为四部分：特征提取、形变处理、遮挡处理和分类。现存方法都是四个部分独立进行，本文联合深度学习将四个部分结合在一起，最大化其能力。
二、引言：
（1）首先，特征提取的应该是行人最有判别力的特征，比较有名的特征描述子有：Haar-like、SIFT、HOG等等；
（2）其次，可变形模型应该可以处理人体的各个部分，如：躯干、头、退等等。最有名的DPM（可变形部件模型）使得各部件具有连接性约束。
（3）遮挡处理，如：检测Blocks或Parts的得分以及采用线索：图像分割、深度图等；
（4）分类器：决定候选窗选中的为一个行人，如：SVM、boosted classifiers、随机森林等等。在这些方法中，分类器是由训练数据来调整的，但是特征是手工设计的。如果有用的信息在特征提取阶段遗漏了，那么在分类阶段不可能在恢复。实际上，应该是分类器应该引导特征的学习。
这几个部分之间的联合通常都是采用手工参数设计实现的。本文的目的是正如作者所述“The motivation of this paper is toestablish automatic interaction in learning these key components. We hope thatjointly learned components,
like members with team spirit, can create synergythrough close interaction, and generate performance that is greater thanindividually learned components.”本文将这几个关键部分整合到一个统一的深度学习框架中：“The deep model is especiallyappropriate for this task because
it can organize these components intodifferent layers and jointly optimize them through back-propagation.”如下图1。

图1

三、本文的方法：


图2
一）总体概述：

1）Fitered data maps的获取：由第一卷积层获取，即对3通道的输入图像使用9x9x3的滤波器进行卷积，输出64个maps，激励函数为|tan h(x)|。

2）Features maps的获取：由池化层获取，即对64个maps采用4x4的boxcar filters（矩形波过滤器）进行一个4x4的下采样。

3）Part detection maps的获取：由第二卷积层获取，采用20个不同大小的part filters（部件滤波器）对features maps进行卷积，输出20个Part detection maps。（详细分析见下文）

4）Part scores获取：对20个Part detection maps使用一个deformation handling layer（变形处理层）来进行处理，输出20个Part scores.

5）20个Parts的可视化：用于评估检测物体的标签。
  注意：在训练阶段，所有的参数优化都是通过Back-propagation（反向传播）。

  二）详细分析：

1）输入数据的预处理：
输入图像大小为84x28，包含三个通道：（1）通道1：经过YUV颜色空间变换后的Y通道图像；（2）通道2：YUV空间的三通道42x14图像串联，空白处填零构成84x28的图像作为第二通道输入，即第二个map被均分为四个block，行优先时，分别是U通道，V通道，Y通道和全0；（3）通道3：第三个map是sobel算子计算的第二个map各个Block的边缘，不同的是第四个block是前面三个block的边缘的最大值。

注意：通过这种方式不同分辨率下的像素值信息和原始的边缘信息都被利用。为了处理光照变化的影响，每个通道的map都要被归一到零均值-单位方差的分布。

2）Part detection maps的产生：

一般来说一个卷积层的滤波器大小是固定的。由于行人的各个部分大小不同，因此本文在第二卷积层中的滤波器大小各不同。本文设计了三层不同尺寸的滤波器，共20个，如下图 3所示，上层的滤波器包含下层滤波器的部分，顶层的parts是有可能存在的遮挡情况，灰色表示可能的遮挡。其他两层为身体的Parts。

图3.a
注意：图中Level 3和Level 2中head-shoulder part出现了两次，一次代表遮挡情况，一个代表Part.

这样做带来的HOG提取效果，明显优于单独的HOG。如图3.b。

图3.b
3）The deformation layer：

该层是为了处理不同Part之间的形变约束。定义第p个Part detection map为Mp，对于第p个Part的第n种Deformation map，定义为Dn,p，变形权重为cn,p，N为Deformation maps的总数。