RCNN(一):Rich feature hierarchies for accurate object detection and semantic segmentation

rbg大神将深度卷积网络引入目标检测领域,大幅提高了准确度和精度。并由此产生一系列改进算法。从RCNN -> SPP-NET -> Fast RCNN -> Faster RCNN 准确度和速度一步步提高,最终近乎于实时的水平。




传统的目标检测方法主要是提取图像的SIFT 、HOG特征这些手工设计的特征进行目标定位以及识别。从2012-2014年,这些传统的方法遇到了瓶颈,取得一些进展主要是通过ensemble systems。卷积神经网络从2012年起在图像分类上的大幅提升效果使得RBG大神考虑到能否将CNN应用到目标检测领域。但是不同于分类问题,目标检测需要目标的具体位置,这时通常的CNN难以做到的。

本文使用的方法是recognition using regions,这种方法已经在目标检测以及语义分割上成功应用[21,39,5]。在测试的时候,我们的方法为每个图片产生2000个左右类别无关的目标候选区域,然后我们通过CNN为每个候选区域提取到一个定长的特征向量,然后通过SVM分类每一个候选区域。


Since our system combines region proposals with CNNs, we dub the method R-CNN:Regions with CNN features.


IoU 指重叠程度,计算公式为:A∩B/A∪B

greedy non-maximum suppression 贪婪非极大值抑制


Object detection with R-CNN

本文的网络主要分为三个部分,Region proposal、Feature extractiom、SVMS。



使用大的数据集训练CNN网络模型。如使用VGG模型和ILSVRC2012进行训练,这些训练集是不包含bounding box的,只有具体的类别。

首先通过Region proposal获得大约2k个与类别无关的区域候选。这里面作者使用的方法是selective search。作者使用这个方法主要是为了能够和现有的方法进行对比试验。


将2K个区域候选按照IoU值进行分类,IoU<0.5的分为背景。反之分到相应的类别内。因为CNN要求固定大小的图像作为输入,因此需要将每一个区域候选resize到227*277。作者使用的方法是直接进行同向放缩。然后将学习率设置为0.001(进行CNN模型训练的1/10),为了避免微调对网络模型产生较大的更改。然后就可以进行微调了,每次进行SGD迭代的时候,作者用32个正样本(IOU>0.5)和96个负样本(因为正样本实在太少了)。这样通过CNN我们就能拿到Region proposal的特征了。同时,这里面所有的分类共享的是同一个卷积神经网络,因此计算开销也比较小。

拿到CNN特征后需要为每一类训练一个SVM分类器用以筛选这个东西是背景还是前景。对于SVM的训练,作者将IoU<0.3的作为负样本,正样本定义为ground-truth bounding box。使用的方法是standard hard negative mining converges[17,37]。

通过SVM判断后,同一类别可能会产生很多的区域候选,这时候要进行区域合并了。作者提出,首先通过SVM的结果对于每个区域候选进行打分,然后根据打分的结果对于同一类使用greedy non-maximum suppression算法进行区域合并。





Region proposal耗时较多

对于每一个Region proposal都需要resize然后进行CNN特征提取,耗时严重。




