您的位置：首页 > 移动开发 > Objective-C

【论文笔记】Rich feature hierarchies for accurate object detection and semantic segmentation

2016-10-10 10:06 721 查看

文章：《Rich feature hierarchies for accurate object detection and semantic segmentation》

     作者：Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik

     单位：UC Berkeley，CVPR2014？

     是否开放代码：是，地址:http://www.cs.berkeley.edu/˜rbg/rcnn
     主要方法：
        1.采用CNN对图像中可能的目标进行提取特征，2，由于用于检测的训练数据不够，所以采用NIPS2012识别
那篇文章的训练好的参数作为初始参数（预训练），然后再利用训练数据进行微调（Fine-Turing）。因为是采用对region
proposal 进行提取特征放入CNN，所以把这个方法叫做R-CNN。

主要内容：

基于DPM的方法在检测上面这几年的效果提升不是很明显，很多都转向了DL的方法来做，CNN由LeCun
20年前就提出来了，它采用随机梯度下降法来进行求解BP，但是随后被SVM方法给取代成为主流，但是在2012年之后重新火了起来，成为计算机视觉DL的主要方法，主要的改进是：1.训练数据增多，计算能力增强（120万张训练数据），2.
ReLU非线性函数的使用，3. Dropout的采用。

目标检测的两个主要方法：1. 采用回归目标窗口的方法，2.滑动窗口地方法；

主要测试过程：1.
给定一张图片，利用selective search方法来产生2000个候选窗口（大致类似于目标显著性）2.然后利用CNN进行对每一个候选窗口提取特征，特征长度为4096维度。
3.最后用SVM分类器对这些特征进行分类（每一个目标类别一个SVM分类器）

具体实现：作者利用了Caffe开源库，利用NIPS2012那篇的识别上面的网络结构参数作为用于检测的网络的初始参数（Pre-training），然后利用检测的训练数据进行微调（Fine-tuning）。而因为Caffe的网络输入图像的大小必须是要求一致的，所以先要对候选窗口进行简单的归一化（这里可能是最大的问题吧，不同的分辨率和不同的长宽比都归一化到一个大小，效果肯定会降低不少）。

其它细节：训练数据中正样本和负样本的选择，这里采用的是直接的与真实目标的重复部分的比重来确定是否为正样本，文章说正负样本的选择的阈值通过交叉验证来确定。

实验结果：1. 因为CNN的网络只需要一个，用来提取获选窗口的4096d的特征，SVM的分类器的参数个数为：4096*N，其中N为目标的类别个数，所以比较容易扩展目标类别数。2.文章说明在Poscal
VOC上的检测率比最好的高了30%。

版权声明：本文为博主原创文章，未经博主允许不得转载。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航