您的位置：首页 > Web前端

论文笔记之--Joint Detection and Identification Feature Learning for Person Search

2017-11-23 11:24 441 查看

转自：http://blog.csdn.net/he_is_all/article/details/60331997

Abstract：现有的行人再识别方法中所使用的标准和方法主要关注的是经过裁剪的行人照片，这与现实生活场景中的图片有所不同。本文为了缩小两者的差距，提出了一种行人搜索的新框架，将行人检测和行人再识别结合起来，利用单个CNN来进行训练。文中使用了OIM损失（Online Instance Matching）来训练网络，它比一般的Softmax损失函数的效果更快更好。
一. Introduction 1.首先介绍了行人再识别的应用领域以及这个研究方向存在的难点，比如人物的姿态，摄像机的角度，光照，像素，背景，etc 2.尽管人们提出了许多行人再识别的数据集和方法，但是和现实应用的场景还是有很大的gap在，原因在于许多方法用到的是人工裁剪过的图像，而在现实中首先必须先从行人所在的某个场景中识别出行人。目前许多paper里的方法已经假定了行人是被完美识别出来的。如下图：

3.与传统方法中将行人检测和再识别分成两个问题不同，本文利用单个CNN将两者结合来解决上述问题，该CNN分为两个部分，一个是pedestrian proposal net，来产生候选行人的 bounding boxes，另一个是identification net，来提取特征来进行与检索目标的比较。两者在 joint optimization过程中具有相互适应的特点，从而消除自身外另一网络带来的问题。 4.传统的re-id特征学习主要依赖于pair-wise或triplet distance loss functions （缺点计算量大）以及Softmax loss function（缺点随着行人类型的增多，运行时间会变慢甚至函数无法收敛）。于是本文提出 Online Instance Matching损失函数，原理是利用来自所有labeled identities特征所形成的lookup table与mini-batch样本之间进行距离比较，另外那些unlabeled identities可以被视为negatives，因此也可以将它们的特征存储在循环队列（circular queue）中并进行比较。
二. Related Work 介绍re-id和行人检测方法的发展历程..... 各种论文和方法的罗列
三. Method 文中方法的流程如下：

简单介绍一下： a）利用一个stem CNN将原始图片像素转换成feature maps，pedestrian proposal net就建立在这些feature maps之上，从而预测候选行人的bounding boxes。 b）将上述的bounding boxes送入具有RoI-Pooling的identification net来提取经过L2正则化后的每个box特征（256维）。 c）在推测阶段，利用gallery person和目标行人之间的features distances来进行排序。 d）在训练阶段，根据feature vectors，使用OIM loss function以及其他的loss functions来监控identification net，以多任务方式来训练网络。
Model Structure 1.文中选用的是ResNet-50作为CNN模型的网络结构，利用其中的conv1和 conv4_3作为stem CNN部分。给定一张输入图片，stem会产生1024个通道的 features maps，它们的分辨率只有原图像的十六分之一。 2.根据features maps，利用512 × 3 × 3的卷积层来对行人特征进行转换，接着在feature map的每个位置利用9个anchors（源于Faster RCNN）和Softmax分类器进行行人与否的预测，同时还包括了线性回归来调整anchors的位置。在NMS过后保留128个调整后的bounding boxes作为最终的proposals 3.为了在这些proposals里找到目标行人，我们建立了identification net来提取特征，并与目标行人作对比。首先利用RoI Pooling层从stem feature map中得到1024 × 14 × 14的区域（对应于每个proposal），接着将它们送入ResNet-50的conv4_4至conv5_3层，再利用global average pooling层将其整合为2048维的特征向量。 4.一方面来说， pedestrian proposals不可避免的会包含一些false alarms（也就是proposal里包含的不是行人）和misalignments，利用Softmax分类器和线性回归来拒绝非行人区域并完善proposal的位置。另一方面，我们将特征投影到经过L2正则化后的256维向量子空间中，计算它们和目标行人的余弦相似度。
Online Instance Matching Loss 1.首先要区分几个概念： labeled identity：与目标行人相吻合的proposal。 unlabeled identities：包含行人但不是目标行人的proposal。 background clutter：包含非行人物体或者背景的proposal。在OIM损失函数中只考虑前两者。具体见下图：

2.文中并未选择SGD进行优化，而选择了online approximation。mini-batch中一个labeled identity的特征被记为记为x（x是D维特征向量），保留一个LUT记录所有labeled identity的特征（D×L 维矩阵，L是不同目标行人的个数）。在前向传播中，计算mini-batch中样本与所有labeled identities之间的的余弦相似度（V转置后乘上x）。在后向传播过程中，如果目标行人的分类标签是t，那么就可以利用如下公式来更新LUT中的第t列：

3.除了 labeled identities之外，我们利用circular queue来保存那些unlabeled identities的特征，用U来表示（D×Q维矩阵，Q是queue的大小），同样也可以计算U与mini-batch样本之间的余弦相似度。每一轮迭代过后，将新的特征向量压入队列中，并剔除那些过时的。 4.特征向量x被视为第i类的行人的概率为：

其中T控制了概率分布的平缓程度。同样的，在 circular queue中，x被视为第i类 unlabeled identity 的概率为：

OIM最终目标是使得期望似然函数最大化：

L对x的梯度可以表示为：

5.文中没有使用Softmax函数的原因有两点：首先，大规模行人搜索数据集里的行人类别太多，并且每个人对应的实例较少。同时需要学习的判别函数过多，而每次SGD中的positive samples又太少，因此分类矩阵的梯度变化很大。其次，Softmax无法利用unlabeled identities，因为在Softmax中它们没有明确的类别标识。 6.OIM与Softmax主要的区别在于OIM损失是非参数化的，LUT和circular queue被认为是外部记忆单元，而非网络的参数。但OIM容易过拟合，所以文中将特征映射到经过L2正则化之后的低维子空间中。 7.当行人种类增加时，前面的计算公式会比较费时，因此采用了对labeled和unlabeled identities进行二次采样的方法。
四. Dataset 1.文中使用了两类数据集，一类是在城市里用照相机拍下来的照片，另一类是电影中包含有行人的截图。目的是为了增加场景的多样性。不同像素的labeled和unlabeled identities分布如下：

2.数据集被分为训练和测试集，其中测试集中的行人又被分为queries和galleries，总共大约有2900个test identities，并随机抽取其中之一做为query，而对应的gallery数据集由两部分组成：所有包含其他实例的图片和随机抽取的不包含query的图片。 3.评价机制：选用的是CMC top-K和mAP。CMC说明产生了匹配，需要满足：top-K个预测bounding boxes中至少有一个box与ground truths有重合，且IoU要大于等于0.5。mAP则是沿用了ILSVRC目标检测标准。
五. 实验 1.文中将三种行人检测和五种行人再识别方法进行组合（形成15个组合）。行人检测包括CCF，ACF和Faster RCNN。recall-precision curve的结果如下：