您的位置:首页 > 其它

You Only Look Once论文中文翻译

2018-02-27 15:42 369 查看
You Only Look Once统一的实时目标检测Abstract 我们提出YOLO,一种新的目标检测方法。以前的对目标检测的工作重新使用分类器来执行检测。相反,我们将目标检测框架为回归问题,空间分离的边界框和相关类概率。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。 由于整个检测流水线是单个网络,因此可以直接优化端到端的检测性能。  我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。较小版本的网络,快速YOLO,速度达到一个惊人的每秒155帧,同时仍然实现其他实时检测器的两倍的mAP。与现有技术的检测系统相比,YOLO产生更多的定位误差,但不太可能预测背景上的假阳性。 最后,YOLO学习目标的非常一般的表示。 它从其他检测方法,包括DPM和RCNN,当概括从自然图像到其他领域如艺术品。1、Introduction  人类看一眼图像,立即知道图像中的物体,它们在哪里,以及它们如何相互作用。人类视觉系统是快速和准确的,允许我们执行复杂的任务,如驾驶与无意识的思想。快速,用于目标检测的准确算法将允许计算机在没有专门的传感器的情况下驱动车辆,使得辅助设备能够向人类用户传送实时场景信息,以及解锁潜在的通用目的,响应机器人系统。  当前的检测系统重新使用分类器来执行检测。为了检测目标,这些系统获取该目标的分类器,并在测试图像中的不同位置和尺度对其进行评估。像可变形零件模型(DPM)的系统使用滑动窗口方法,其中分类器在整个图像上均匀间隔的位置运行[10]。  更近的方法,如RCNN使用区域提议方法首先在图像中生成潜在的边界框,然后在这些提议的框上运行分类器。分类后,后处理用于细化边界框,消除重复检测,并基于场景中的其他目标重新分组框[13]。这些复杂的管道是缓慢和难以优化,因为每个个别组件必须单独进行培训。  我们将目标检测作为单个回归问题,直接从图像像素到边界框坐标和类概率。使用我们的系统,您只需要在图像上查看一次(YOLO),以预测出现的目标及其位置。  YOLO非常简单:参见图1.单个卷积网络同时预测这些框的多个边界框和类概率。 YOLO对整个图像进行训练,直接优化检测性能。这种统一的模型比传统的目标检测方法有几个好处。 图1:YOLO检测系统。 使用YOLO处理图像简单直接。 我们的系统(1)将输入图像调整为448×448,(2)在图像上运行单个卷积网络,以及(3)通过模型的置信度阈值所得到的检测。  首先,YOLO是非常快。由于我们将检测框架作为回归问题,我们不需要复杂的管道。我们只是在测试时在一个新的图像上运行我们的神经网络来预测检测。我们的基础网络以每秒45帧的速度运行,在Titan X GPU上没有批处理,而快速版本的运行速度超过150 fps。这意味着我们可以实时处理流视频,延迟小于25毫秒。此外,YOLO实现了其他实时系统的平均精度的两倍多。对于我们的系统在网络摄像头上实时运行的演示,请参阅我们的项目网页:http://pjreddie.com/yolo/.  第二,YOLO在做图像预测时考虑全局图像。与滑动窗口和基于区域提议的技术不同的是YOLO在训练和测试时间看到整个图像,因此它隐含地编码关于类的上下文信息以及它们的外观。Fast RCNN,顶部检测方法[14],错误背景补丁在图像中的目标,因为它看不到更大的上下文。与fast RCNN相比,YOLO的背景误差数量少于一半。  第三,YOLO学习目标的可概括表示。当对自然图像进行训练并在艺术品上进行测试时,YOLO大幅优于DPM和RCNN等顶级检测方法。由于YOLO是高度可概括的,当应用于新域或意外输入时,不太可能分解。  YOLO仍然落后于最先进的检测系统的精度。虽然它可以快速识别图像中的目标,但它努力精确地本地化一些目标,特别是小的目标。我们在我们的实验中进一步研究这些权衡。  我们的所有培训和测试代码都是开源的。还可以下载各种预训练模型。2、统一检测  我们将目标检测的单独组件统一为单个神经网络。我们的网络使用来自整个图像的特征来预测每个边界框。它还同时预测图像的所有类的所有边界框。这意味着我们的网络全球的原因是全图像和图像中的所有目标。YOLO设计实现端到端训练和实时速度,同时保持高平均精度。  我们的系统将输入图像分成S×S大小的网格。如果目标的中心落入网格单元,则该网格单元负责检测该目标。  每个网格单元预测这些框的B个边界框和置信度得分。这些置信度分数反映了模型在框中包含目标的自信程度,以及框架在预测框中的准确性。正式我们将信心定义为Pr(目标)* IOU真值预测。如果该单元中不存在目标,则置信分数应为零。否则,我们想要置信度得分等于预测框和真实目标之间的交集(IOU)。  每个边界框包括5个预测:x,y,w,h和置信度。(x,y)坐标表示相对于网格单元的边界的框的中心。w和h相对于整个图像预测宽度和高度。最后,置信预测表示预测的框和任何真实框之间的IOU。  每个网格单元还预测C条件类概率Pr(类i |目标)。这些概率以包含目标的网格单元为条件。我们只预测每个网格单元的一组类概率,而不考虑框B的数量。  在测试时,我们乘以条件类概率和单个框的置信预测,这给出了每个框的类特定的置信分数。这些分数编码该类出现在框中的概率和预测框适合目标的程度。  图2:模型。 我们的系统将检测建模为回归问题。 它将图像分成S×S网格,并且对于每个网格单元,预测B个边界框,那些框的置信度和C类概率。这些预测被编码为S×S×(B * 5 + C)张量。  为了评估YOLO对PASCAL VOC数据集的影响,我们使用S = 7,B = 2。PASCAL VOC有20个标记类,因此C = 20。我们的最终预测是7×7×30张量。  2.1. 网络设计  我们将此模型实现为卷积神经网络,并在PASCAL VOC检测数据集上进行评估[9]。 网络的初始卷积层从图像中提取特征,而完全连接的层预测输出概率和位置坐标。  我们的网络架构的灵感来自图像分类的GoogLeNet模型[34]。我们的网络有24个卷积层,其次是2个完全连接的层。与Lin等人[22]类似,我们不使用GoogLeNet使用的初始模块,而是使用1×1还原层,然后是3×3卷积层。 完整的网络如图3所示。  我们还训练一个快速版本的YOLO设计版本,以推动快速目标检测的边界。快速YOLO使用具有较少卷积层(9而不是24)的神经网络和在那些层中较少的过滤器。除了网络的大小,YOLO和Fast YOLO之间的所有训练和测试参数都相同。 图3:架构。 我们的检测网络有24个卷积层,其次是2个完全连接的层。交替的1×1卷积层减少来自先前层的特征空间。 我们在ImageNet分类任务上以一半分辨率(224×224输入图像)预处理卷积层,然后将分辨率加倍以进行检测。  我们的网络的最终输出是7×7×30张量的预测。2.2 训练  我们在ImageNet 1000类竞争数据集上预先训练我们的卷积层[30]。对于预训练,我们使用图3的前20个卷积层,随后是平均池层和完全连接的层。我们训练这个网络大约一个星期,在ImageNet 2012验证集上实现88%的单一作物的前5精度,精度与Caffe的模型中GoogLeNet模型相当[24]。我们使用Darknet框架进行所有的训练和推理[26]。  然后我们转换模型以执行检测。 Ren et al等人表明将卷积和连接层添加到预训练网络可以提高性能[29]。根据他们的例子,我们添加四个卷积层和两个完全连接的层与随机初始化的权重。检测通常需要细粒度的可视信息,因此我们将网络的输入分辨率从224×224增加到448×448。  我们的最终层预测类概率和边界框坐标。我们通过图像宽度和高度将边界框宽度和高度归一化,使得它们落在0和1之间。我们将边界框x和y坐标参数化为特定网格单元位置的偏移,使得它们也在0和1之间。  我们对最后一层使用线性激活函数,所有其他层使用以下泄漏校正线性激活:   我们优化了模型输出中的平方误差。我们使用和平方误差,因为它容易优化,但它不能完美地与我们的最大化平均精度的目标一致。它同样对分类误差加权定位误差,这可能不是理想的。此外,在每个图像中,许多网格单元不包含任何目标。这将这些细胞的“置信度”分数置位零,通常强迫来自包含目标的细胞的梯度。这可能导致模型不稳定,导致训练早期发散。  为了弥补这一点,我们增加了边界框坐标预测的损失,并减少了对不包含目标的框的置信预测的损失。我们使用两个参数λcoord和λnoobj来完成这个。我们设置λcoord = 5和λnoobj =0 .5。  平方误差也平等地加权大框和小框中的误差。我们的误差指标应该反映大盒子中的小偏差小于小盒子。为了部分解决这个问题,我们直接预测边界框宽度和高度的平方根,而不是宽度和高度。  YOLO预测每个网格单元的多个边界框。在训练时,我们只需要一个边界框预测器来负责每个目标。我们将一个预测器分配为“负责”,用于基于哪个预测具有与真实目标最高的当前IOU来预测目标。这导致边界框预测结果之间的专门化。每个预测变量在预测某些大小,纵横比或目标类别方面变得更好,从而提高整体召回率。  在训练期间,我们优化以下的多部分损失函数:   在训练期间,我们优化以下的多部分损失函数:其中表示目标出现在单元格i中,并且表示单元格i中的第j个边界框预测器对于该预测是“负责”的。  注意,如果目标存在于该网格单元中,则损失函数仅惩罚分类误差(因此前面讨论的条件类概率)。如果该预测器对于真实框是“负责”的(即,具有该网格单元中的任何预测器的最高IOU),它也仅惩罚边界框坐标误差。  我们在PASCAL VOC 2007和2012的培训和验证数据集上训练网络约135个时期。在2012年测试时,我们还包括了VOC 2007测试数据用于培训。在整个训练中,我们使用批次大小为64,动量为0.9,衰减为0.0005。  我们的学习率安排如下:对于第一个时代,我们将学习率从10 -3缓慢提高到10 -2。如果我们从高学习率开始,我们的模型经常由于不稳定的梯度而发散。我们继续训练有10 -2为75个epochs,然后10 -3为30个epochs,最后10 -4为30个epochs。  为了避免过度拟合,我们使用dropout和广泛的数据扩充。在第一个连接层之后,速率= 0.5的阻塞层阻止层之间的共适应[18]。对于数据增加,我们引入了高达原始图像大小的20%的随机缩放和平移。我们还在HSV色彩空间中将图像的曝光和饱和度随机调整至高达1.5倍。2.3 推理  就像在训练阶段,预测测试图像的检测只需要一个网络评估。在PASCAL VOC数据集上,网络预测每个图像的98个边界框和每个框的类概率。YOLO在测试时非常快,因为它只需要一个网络评估,不像基于分类器的方法。  网格设计在边界框预测中实施空间多样性。通常,清楚目标落入哪个网格单元,并且网络仅为每个目标预测一个框。然而,在多个单元的边界附近的一些大目标或目标可以由多个单元良好地定位。非最大抑制可以用于修复这些多重检测。虽然对于性能而言不是关键的,因为它对于RCNN或DPM,非最大抑制在mAP中增加2-3%。2.4 YOLO的局限性  YOLO对边界框预测施加强空间约束,因为每个网格单元仅预测两个框,并且只能具有一个类。这个空间约束限制了我们的模型可以预测的附近目标的数量。我们的模型与群体中出现的小物体(例如鸟群)斗争。  由于我们的模型学习从数据预测边界框,它努力推广到新的或不寻常的宽高比或配置的目标。我们的模型还使用相对粗糙的特征来预测边界框,因为我们的架构具有来自输入图像的多个下采样层。  最后,当我们训练一个近似检测性能的损失函数时,我们的损失函数在小边界框和大边界框中处理相同的错误。大框中的小误差通常是良性的,但是小框中的小误差对IOU具有更大的影响。我们的主要错误来源是不正确的定位。3、与其他检测系统的比较  目标检测是计算机视觉中的核心问题。检测管道通常从输入图像(Haar [25],SIFT [23],HOG [4],卷积特征[6])提取一组鲁棒特征开始。 然后,使用分类器[36,21,13,10]或定位器[1,32]来识别特征空间中的目标。这些分类器或定位器以滑动窗口方式在整个图像上或在图像中的一些区域子集上运行[35,15,39]。我们将YOLO检测系统与几个顶级检测框架进行比较,强调了关键的相似点和差异。  可变形零件模型(DPM)。变形的零件模型(DPM)使用滑动窗口方法目标检测[10]。 DPM使用不相交管道来提取静态特征,分类区域,预测高评分区域的边界框等。我们的系统用单个卷积神经网络替换所有这些不同的部分。网络执行特征提取,边界框预测,最大抑制和上下文推理。代替静态特征,网络训练串联的特征并且优化它们用于检测任务。我们的统一架构导致比DPM更快,更准确的模型。  RCNN.RCNN及其变体使用区域建议,而不是滑动窗口来找到图像中的目标。选择性搜索[35]生成潜在的边界框,卷积网络提取特征,SVM分数框,线性模型调整边界框,非最大抑制消除重复检测。这个复杂流水线的每个阶段都必须独立进行精确调整,得到的系统非常慢,在测试时间每个图像需要超过40秒[14]。  YOLO与RCNN有一些相似之处。 每个网格单元提出了潜在的边界框并使用卷积特征对那些框进行分数。 然而,我们的系统将空间约束放在网格单元建议上,这有助于减轻同一目标的多个检测。 我们的系统还提出了很少的边界框,每个图像只有98个,而选择性搜索约为2000个。最后,我们的系统将这些单独的组件组合成一个单独的,联合优化的模型。  其他快速检测器。Fast和faster RCNN专注于通过共享计算和使用神经网络来提高区域而不是选择性搜索来加速RCNN框架[14] [28]。 虽然他们提供的速度和准确性的改进超过RCNN,但仍然低于实时性能。  许多研究工作集中在加速DPM管道[31] [38] [5]。 他们加速HOG计算,使用级联,并推动计算到GPU。 然而,实际上只有30Hz的DPM [31]实时运行。  而不是尝试优化大型检测管道的单个组件,YOLO完全抛出管道,并且设计快。  单个类如面部或人的检测器可以高度优化,因为它们必须处理更少的变化[37]。YOLO是一个通用的检测器,可以同时检测多种物体。  Deep MultiBox。 与RCNN不同,Szegedy et al等人训练卷积神经网络以预测感兴趣的区域[8],而不是使用选择性搜索。MultiBox还可以通过用单个类别预测替换置信预测来执行单个目标检测。然而,MultiBox不能执行一般的目标检测,并且仍然只是一个更大的检测管道中的一块,需要进一步的图像补丁分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框,但YOLO是一个完整的检测系统。  Over-Feat。 Sermanet等人训练卷积神经网络以执行定位并使该定位器适于执行检测[32]。 Over-Feat有效地执行滑动窗口检测,但它仍然是一个不相交的系统。Over-Feat优化了本地化,而不是检测性能。像DPM一样,定位器在进行预测时仅看到本地信息。OverFeat不能推测全局上下文,因此需要大量的后处理来产生相干检测。  Multi-Grasp。 我们的工作在设计上类似于Redmon等人[27]的抓握检测工作。我们的网格方法到边界框预测是基于Multi-Grasp系统用于回归到抓握。然而,抓取检测是比目标检测简单得多的任务。Multi-Grasp只需要为包含一个目标的图像预测单个可抓取区域。它不必估计目标的大小,位置或边界或预测它的类,只找到适合抓握的区域。YOLO预测图像中多个类的多个目标的边界框和类概率。4、实验  首先,我们在PASCAL VOC 2007上比较YOLO和其他实时检测系统。为了理解YOLO和RCNN变体之间的差异,我们探讨了YOLO和Fast RCNN在性能最高的版本之一 的RCNN [14]。 基于不同的误差曲线,我们显示YOLO可以用于重排fast RCNN检测,并减少背景误报的误差,提供显着的性能提升。 我们还提出VOC 2012结果,并将mAP与当前最先进的方法进行比较。 最后,我们表明YOLO推广到新的领域比其他探测器两个艺术品数据集。4.1. 与其他实时系统的比较  目标检测中的许多研究工作重点在于快速制作标准检测流水线。 [5] [38] [31] [14] [17] [28]但是,只有Sadeghi et al等实际上产生实时运行的检测系统(每秒30帧或更好)[31]。我们将YOLO与其在30Hz或100Hz运行的DPM的GPU实现进行比较。尽管其他努力没有达到实时里程碑,我们还比较了它们的相对mAP和速度,以检查目标检测系统中可用的精度性能权衡。  Fast YOLO是PASCAL上最快的目标检测方法;据我们所知,它是最快的现存目标检测器。使用52.7%的mAP,它是以前的实时检测工作的两倍以上。YOLO将mAP推向63.4%,同时仍保持实时性能。  我们还使用VGG-16训练YOLO。这个模型更准确,但也明显慢于YOLO。它对于与依赖VGG-16的其他检测系统的比较是有用的,但是由于它比实时慢,所以本文的其余部分集中在我们更快的模型上。  最快的DPM有效地加速DPM,而不牺牲许多mAP,但它仍然错过2倍的实时性能[38]。它也受到DPM相对于神经网络方法的相对低的检测精度的限制。  RCNN减R代替选择性搜索与静态边界框建议[20]。 虽然它比RCNN快得多,但仍然没有实时性,并且由于没有好的建议而产生显着的准确性。  Fast RCNN加速了RCNN的分类阶段,但它仍然依赖于选择性搜索,每个图像可以花费大约2秒来生成边界框提议。 因此,它具有高mAP,但是在0.5fps它仍然远离实时。  最近的faster RCNN取代了选择性搜索与神经网络提出边界框,类似于Szegedy等人在我们的测试中,他们最准确的模型达到7 fps,而较小的,不太准确的模式以18 fps运行。 Faster RCNN的VGG-16版本是10 个百分点的mAP或更高,但是也比YOLO慢6倍。Zeiler-Fergus的faster RCNN只比YOLO慢2.5倍,但也不太准确。 表1:PASCAL VOC 2007上的实时系统。比较快速检测器的性能和速度。 快速YOLO是PASCAL VOC检测记录的最快的检测器,仍然是任何其他实时检测器的两倍。YOLO比快速版本更准确约10个百分点的 mAP,但仍然远高于实时速度4.2、VOC 2007数据集上误差分析  为了进一步检验YOLO和最先进的检测器之间的差异,我们将详细分析VOC 2007的结果。我们将YOLO与Fast RCNN进行比较,因为快速RCNN是最高性能的检测器之一 P ASCAL,它的检测是公开的。  我们使用Hoiem等人的方法和工具。 [19]对于测试时的每个类别,我们查看该类别的前N个预测。 每个预测是正确的或者基于错误的类型分类:  •正确:正确的类和IOU> .5  •定位:正确的类,.1 <IOU <.5  •类似:类相似,IOU> .1  •其他:类错了,IOU> .1  •背景:对于任何目标,IOU <.1图4:误差分析:fast RCNN与YOLO这些图表显示各种类别(在该类别中N =#个目标)的前N个检测中的定位和背景错误的百分比。  图4显示了在所有20个类中平均的每个错误类型的细分。  YOLO努力正确地定位目标。 定位错误占所有YOLO的错误比所有其他来源组合。 Fast RCNN使定位误差少得多,但背景误差大得多。 它的13.6%的顶部检测是假阳性,不包含任何目标。 快速RCNN比YOLO预测背景检测的可能性高出3倍。4.3 结合fast RCNN和YOLO  YOLO比Fast RCNN的背景错误少得多。通过使用YOLO来消除Fast RCNN的背景检测,我们获得了显着的性能提升。对于RCNN预测的每个边界框,我们检查YOLO是否预测类似的框。如果是,我们基于由YOLO预测的概率和两个框之间的重叠,给予该预测增强。  最好的Fast RCNN模型在VOC 2007测试集上达到71.8%的mAP。当与YOLO组合时,其mAP增加了3.2%至75.0%。我们还尝试结合顶部fast RCNN模型与其他几个版本的Fast RCNN。这些集合在mAP中产生0.3%和0.6%之间的小的增加,详见表2。  来自YOLO的提升不仅仅是模型组合的副产品,因为组合不同版本的Fast RCNN几乎没有什么好处。相反,它是正确的因为YOLO在测试时产生了不同的错误,它在提升Fast RCNN的性能方面非常有效。  不幸的是,这种组合并没有受益于YOLO的速度,因为我们分别运行每个模型,然后组合结果。然而,由于YOLO是如此之快,与快速RCNN相比它不增加任何显着的计算时间。 表2:对VOC 2007的模型组合实验。我们检查将各种模型与最佳版本的Fast RCNN组合的效果。 其他版本的Fast RCNN只提供了一个小的好处,而YOLO提供了显着的性能提升。 表3:PASCAL VOC 2012排行榜。YOLO与截至2015年11月6日的完整comp4(允许外部数据)公开排行榜相比。显示了各种检测方法的平均精度和每类平均精度。 YOLO是唯一的实时检测器。 快速RCNN + YOLO是第四高的评分方法,比fast RCNN增加2.3%。4.4  VOC 2012结果  在VOC 2012测试集上,YOLO得分为57.9%mAP。这低于现有技术水平,更接近使用VGG-16的原始RCNN,参见表3.我们的系统与小目标相比,其最接近的竞争对手。在类别如瓶,羊和电视/显示器YOLO得分比RCNN或特征编辑低8-10%。 然而,在其他类别如猫和火车YOLO实现更高的性能。  我们的fast RCNN + YOLO模型是最高性能的检测方法之一。 快速RCNN从与YOLO的组合得到了2.3%的改进,提高了5个点在公众排行榜上。4.5、通用性:艺术品中的人检测  用于目标检测的学术数据集从相同的分布中抽取训练和测试数据。在实际应用中,很难预测所有可能的用例,测试数据可能与系统在[3]之前所看到的不同。我们比较YOLO与Picasso数据集[12]和人 - 艺术数据集[3]上的其他检测系统,两个数据集用于测试艺术品上的人物检测。  图5显示YOLO和其他检测方法之间的比较性能。作为参考,我们给VOC 2007检测人上面的AP,其中所有模型仅训练VOC 2007数据。毕加索模型在VOC 2012培训,而人 - 艺术培训VOC 2010。  RCNN在VOC 2007上具有高AP。然而,当应用于艺术品时,RCNN显着下降。 RCNN使用选择性搜索来调整自然图像的边界框建议。RCNN中的分类器步骤仅仅看到小区域并且需要好的建议。  DPM在应用于艺术品时保持其AP良好。先前的工作理论认为DPM执行良好,因为它具有强大的目标的形状和布局的空间模型。尽管DPM不会降低与RCNN一样多,但是它从较低的AP开始。  YOLO在VOC 2007上具有良好的性能,并且当应用于艺术品时,其AP降解少于其他方法。相似的DPM,YOLO模拟目标的大小和形状,以及目标之间的关系以及目标通常出现的位置。图像和自然图像在像素级别上非常不同,但是它们在目标的大小和形状方面是相似的,因此YOLO仍然可以预测良好的边界框和检测。5.野外实时检测  YOLO是一个快速,精确的目标检测器,使其成为计算机视觉应用的理想选择。 我们将YOLO连接到网络摄像头,并验证其是否保持实时性能,包括从相机获取图像并显示检测结果的时间。  结果系统是互动和参与。 虽然YOLO单独处理图像,但当连接到网络摄像头时,它的功能类似于跟踪系统,检测目标在移动时的外观变化。 系统演示和源代码可以在我们的项目网站上找到:http://pjreddie.com/yolo/。 对VOC 2007,毕加索和人物艺术数据集的定量结果。毕加索数据集评估AP和最佳F 1分数。6.结论  我们介绍YOLO,一个统一的目标检测模型。 我们的模型很容易构建,可以直接在完整的图像上进行训练。 不同于基于分类器的方法,YOLO被训练的损失函数直接对应于检测性能,整个模型联合训练。快速YOLO是文献中最快的通用目标检测器,YOLO推动了实时目标检测中的最先进的技术。 YOLO也广泛适用于新的领域,使其成为依赖于快速,强大的目标检测的应用程序的理想选择。致谢:这项工作部分支持ONR N00014-13-1-0720,NSF IIS-1338054和艾伦杰出研究者奖。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐