您的位置:首页 > 移动开发 > Objective-C

论文翻译:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

2018-01-12 09:58 836 查看
来源:CVPR

Abstract

最先进的物体检测网络依靠区域提议算法来推测物体的位置。SPPnet [1]和Fast R-CNN [2]等研究已经减少了这些检测网络的运行时间,使得区域提议计算成为一个瓶颈。在这项工作中,我们引入了一个区域提议网络(RPN),该网络与检测网络共享全图像卷积特征,从而使近乎成本的区域提议成为可能。 RPN是一个完全卷积网络,可以同时预测每个位置的对象边界和对象分数。 RPN经过端到端的训练,生成高质量的区域提案,由Fast
R-CNN用于检测。我们将RPN和Fast R-CNN通过共享卷积特征进一步合并为一个单一的网络 —— 使用最近流行的具有“关注”机制的神经网络术语,RPN组件告诉统一网络在哪里寻找(目标)。对于非常深的VGG-16模型[3],我们的检测系统在GPU上的帧速率为5fps(包括所有步骤),同时在PASCAL VOC 2007,2012上实现了最先进的目标检测精度, MS COCO数据集,每个图像只有300个提案。在ILSVRC和COCO 2015比赛中,更快的R-CNN和RPN是多条赛道中获得第一名的基础。代码已经公开。

索引术语 : 目标检测,区域建议,卷积神经网络。

1. Introduction

目标检测的最新进展是由区域提议方法(例如[4])和基于区域的卷积神经网络(RCNN)[5]的成功所驱动的。尽管基于区域的CNN在[5]中最初开发的计算成本很高,但是由于在各种提议中共享卷积,所以其成本已经大大降低了[1],[2]。 Fast R-CNN的最新版本[2]使用非常深的网络[3],实现了接近实时的速率,忽略了花在区域提案上的时间。现在,提案是最先进的检测系统中的测试时间计算瓶颈

      区域建议方法通常依赖廉价的特征和节约的的推理方案。选择性搜索[4]是最流行的方法之一,它贪婪地合并基于工程低级特征的超像素。然而,与有效的检测网络[2]相比,选择性搜索速度慢了一个数量级,在CPU实现中每个图像的时间为2秒。 EdgeBoxes [6]目前提供了建议质量和速度之间的最佳折中,每张图像0.2秒。尽管如此,地区建议步骤仍然像检测网络那样消耗尽可能多的运行时间。

    有人可能会注意到,基于区域的快速CNN利用GPU,而在研究中使用的区域提议方法在CPU上实现,使得运行时比较不公平。加速提案计算的一个显而易见的方法是将其重新实现为GPU。这可能是一个有效的工程解决方案,但重新实施忽略了下游检测网络,因此错过了共享计算的重要机会。

      在本文中,我们提出了一个算法性改变 —— 通过深度卷积神经网络计算提议区域 -- 结果产生一个优雅和有效的解决方案,给定检测网络的计算的情况下提案计算几乎不花时间。为此,我们引入了新颖的区域提议网络(RPNs),它们共享具有最新对象检测网络的卷积层[1],[2]。通过在测试时共享卷积,计算提议的边际成本很小(例如,每个图像10ms)。

      我们观察到,基于区域的检测器所使用的卷积特征映射,如快速RCNN,也可以用于生成区域提议。在这些卷积特征之上,我们通过添加一些额外的卷积层来构建RPN,这些卷积层同时在规则网格上的每个位置处回归区域边界和对象分数。因此,RPN是一种完全卷积网络(FCN)[7],并且可以针对生成检测建议的任务进行端到端的训练

      RPN旨在有效预测具有广泛尺度和纵横比的区域提案。与使用图像金字塔(图1,a)或过滤器金字塔(图1,b)的流行方法[8],[9],[1]作为多种尺度和长宽比的参考。我们的方案可以被认为是回归参考金字塔(图1,c),它避免了枚举多个比例或长宽比的图像或过滤器。这个模型在使用单一尺度的图像进行训练和测试时运行良好,从而有利于运行速度。



      为了将RPNs与Fast R-CNN [2]物体检测网络相结合,我们提出了一种训练方案,在区域提议任务的微调和微调物体检测之间进行交替,同时保持提议的固定。这种方案快速收敛,并产生一个具有卷积特性的统一网络,两个任务之间共享卷积特征.
      我们综合评估了我们在PASCAL VOC检测基准[11]上的方法,其中具有快速R-CNN的RPN产生的检测精度优于使用快速R-CNN进行选择性搜索。同时,我们的方法在测试时几乎免除了选择性搜索的所有计算负担 - 提议的有效运行时间仅为10毫秒。使用[3]的昂贵的非常深的模型,我们的检测方法在GPU上仍然具有5fps的帧速率(包括所有步骤),因此在速度和准确性方面是实际的物体检测系统。我们还报告了MS COCO数据集[12]的结果,并使用COCO数据研究了PASCAL VOC的改进。代码已经在https://github.com/shaoqingren/faster_
rcnn(在MATLAB中)和https://github.com/ rbgirshick / py-faster-rcnn(在Python中)公开。

      这个手稿的初步版本是以前发表的[10]。从那时起,RPN和更快R-CNN的框架已经被采用并推广到其他方法,如3D对象检测[13],基于部分的检测[14],实例分割[15]和图像字幕[16] 。我们的快速和有效的对象检测系统也已经建立在商业系统,如Pinterest的[17],用户参与改进报告。

      在ILSVRC和COCO 2015比赛中,更快的R-CNN和RPN是ImageNet检测,ImageNet本地化,COCO检测和COCO分割轨道的几个第一名[18]的基础。 RPN完全学习从数据中提出区域,因此可以从更深入和更具表达性的特征(例如[18]中采用的101层残留网络)中轻松获益。更快的R-CNN和RPN也被这些比赛中的其他几个主要参赛者使用。这些结果表明,我们的方法不仅是一个实用的成本效益的解决方案,而且是一个提高对象检测精度的有效方法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐