您的位置:首页 > Web前端

【翻译】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文翻译

2020-08-18 21:24 477 查看

【论文翻译】:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
【论文来源】:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
【翻译人】:BDML@CQUT实验室

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

具有注意力RPN和多关系检测器的少样本目标检测网络

2020 IEEE Conference on Computer Vision and Pattern Recognition
具有注意力RPN和多关系检测器的少样本目标检测网络
2020 IEEE计算机视觉与模式识别会议
Qi Fan,Wei Zhuo,Chi-Keung Tang,Yu-Wing Tai
HKUST,Tencent
{qfanaa,cktang}@cse.ust.hk
wei.zhuowx@gmail.com
yuwingtai@tencent.com

摘要

传统的目标检测方法通常需要大量的训练数据,并且准备这样高质量的训练数据是劳动密集型的(工作)。在本文中,我们提出了少量样本的目标检测网络,目的是检测只有几个训练实例的未见过的类别对象。我们的方法的核心是注意力RPN和多关系模块,充分利用少量训练样本和测试集之间的相似度来检测新对象,同时抑制背景中的错误检测。为了训练我们的网络,我们已经准备了一个新的数据集,它包含1000类具有高质量注释的不同对象。据我们所知,这也是第一个数据集专门设计用于少样本目标检测。一旦我们的网络被训练,我们可以应用对象检测为未见过的类,而无需进一步的训练或微调。我们的方法是通用的,并且具有广泛的应用范围。我们证明了我们的方法在不同的数据集上的定性和定量的有效性。 数据集链接地址

1.简介

现有的物体检测方法通常严重依赖大量的注释数据,并且需要很长的训练时间。这激发了少量样本物体检测的最新发展。鉴于现实世界中物体的光照,形状,纹理等变化很大,少量样本学习会遇到挑战。尽管已经取得了重要的研究和进展[1、2、3、4、5、6、7、8],但是所有这些方法都将重点放在图像分类上,而很少涉及到很少检测到物体的问题,这很可能是因为转移从少样本分类到少样本目标检测是一项艰巨的任务。

仅有少数样本的目标检测的中心是如何在杂乱的背景中定位看不见的对象,从长远来看,这是新颖类别中一些带注释的示例中对象定位的一个普遍问题。潜在的边界框很容易错过看不见的物体,否则可能会在后台产生许多错误的检测结果。我们认为,这是由于区域提议网络(RPN)输出的良好边界框得分不当而导致难以检测到新物体。这使得少样本目标检测本质上不同于少样本分类。另一方面,最近用于少样本物体检测的工作[9、10、11、12]都需要微调,因此不能直接应用于新颖类别。

在本文中,我们解决了少样本目标检测的问题:给定一些新颖目标对象的支持图像,我们的目标是检测测试集中属于目标对象类别的所有前景对象,如图1所示。为此,我们提出两项主要贡献:

图1. 给定不同的目标对象作为支撑集(在上面的右上角),我们的方法可以检测给定查询图像中相同类别中的所有目标对象。

首先,我们提出了一种通用的少样本物体检测模型,该模型可用于检测新颖物体而无需重新训练和微调。借助我们精心设计的对比训练策略,RPN上的注意力模块和检测器,我们的方法在多个网络阶段利用权重共享网络中的对象对之间的匹配关系。这使我们的模型可以对不需要精细训练或无需进一步网络适应的新颖类别的对象执行在线检测。实验表明,我们的模型可以在建议质量得到显着提高的早期阶段中从关注模块以及多重关系检测器模块中受益,该模型可以抑制并在令人迷惑的背景中滤除错误检测。我们的模型在少样本设置下就在ImageNet Detection数据集和MS COCO数据集上实现了最新的性能。

第二个贡献是一个大型的带注释的数据集,该数据集包含1000个类别,每个类别仅包含几个示例。总体而言,与现有的大规模数据集(例如,coco[13]。据我们所知,这是具有空前数量的对象类别(1000)的少样本目标检测数据集之一。使用该数据集,即使没有任何微调,我们的模型也可以在不同的数据集上实现更好的性能。

2.相关工作

通用目标检测。 目标检测是计算机视觉中的经典问题。早些年,通常使用手工特征将目标检测公式化为滑动窗口分类问题[14、15、16]。随着深度学习的兴起[17],基于CNN的方法已成为占主导地位的目标检测解决方案。大多数方法还可以进一步分为两种通用方法:无提议检测器和基于提议的检测器。第一条线的工作遵循单阶段的训练策略,并且未明确生成建议框[18、19、20、21、22]。另一个方面,由RCNN [23]率先提出的两阶段方法,首先从给定图像中提取潜在对象的类别不可知区域建议。然后,通过特定的模块[24、25、26、27]进一步完善这些框并将其分类为不同的类别。此策略的优点是它可以通过RPN模块过滤掉许多负面位置,从而方便了下一步的检测器任务。因此,基于RPN的方法通常比无提议的方法具有更好的检测效果[27]。然而,上述方法以密集的监督方式工作,并且仅通过几个示例很难将其扩展到新颖的类别。

少样本学习。 对于传统的机器学习算法而言,仅从几个训练示例中进行学习,经典设置条件下的少样本学习[28]面临挑战。较早的作法试图学习一般的先验[29、30、31、32、33],例如可以在各个类别之间共享的手工设计的标识。一些工作[1、34、35、36]专注于度量学习,以手动设计不同类别之间的距离公式。最近的趋势是设计一种通用代理/策略,以指导每个任务中的监督学习。通过积累知识,网络可以捕获跨不同任务的结构变化。该研究方向一般称为元学习[2,5,37,38,39]。在这一领域,[37]提出了一个孪生网络,该网络由共享权重的两个网络组成,其中每个网络分别被提供一个支撑图像和一个查询图像。查询图像与对应的支撑图像之间的距离自然是通过逻辑回归来学习。这种匹配策略可以捕获支撑和查询图像之间的固有差异,而不管它们的类别如何。在匹配框架领域,后续工作[3、4、6、8、10、40]专注于增强功能嵌入,其中一个方向是构建记忆模块以捕获支撑图像中的全局上下文。许多工作[41,42]利用局部描述符从有限的数据中获取更多的知识。在[43,44]中,作者引入了图形神经网络(GNN)来建模不同类别之间的关系。在[45]中,遍历给定的整个支持集以识别与任务相关的功能,并使高维空间中的度量学习更加有效。其他工作,例如[2,46],致力于学习通用代理以指导参数优化。

迄今为止,少样本学习并没有取得突破性的进展,该学习主要集中在分类任务上,而很少关注其他重要的计算机视觉任务,例如语义分割[47,48,49],人体运动预测[50]和目标检测[9]。在[51]中,使用了未标记的数据,并且在没有框的图像上交替优化了多个模块。但是,该方法可能会因监督不力而被错误检测误导,并需要对新类别进行重新训练。在LSTD [9]中,作者提出了一种新颖的少样本目标检测框架,该框架可以通过最小化源域和目标域之间的后验概率分类的差距,将知识从一个大型数据集转移到另一个较小的数据集。但是,此方法在很大程度上取决于源域,并且很难扩展到非常不同的方案。最近,已经提出了一些其他用于少样本检测的著作[9、10、11、12],但是它们学习特定于类别的嵌入并且需要针对新颖的类别进行微调。

我们的工作是由匹配网络[37]率先提出的研究路线所推动的。我们提出了一个通用的少样本目标检测网络,该网络基于Faster R-CNN框架来学习图像对之间的匹配度量,该框架配备了我们新颖的注意力RPN和使用我们的对比训练策略训练的多关系检测器。

3.FSOD:高度多样化的少样本目标检测数据集

进行少样本学习的关键在于,以新颖的类别呈现时,相关模型的泛化能力。因此,具有大量目标对象类别的高多样性数据集对于训练可以检测未见对象的通用模型以及执行令人信服的评估是必要的。但是,现有的数据集[13、52、53、54、55]包含的类别非常有限,并且并非在少样本评估设置中设计的。因此,我们建立了一个新的少样本检测数据集。

数据集构建。 我们从现有的大规模目标检测数据集构建数据集以进行监督学习,即[54,56]。但是,由于以下原因,这些数据集无法直接使用:1)不同数据集的标签系统是不一致的,其中某些具有相同语义的对象在不同的数据集中有不同的注释;2)由于标签不正确和缺失,重复的框,对象太大,现有注释的很大一部分是有噪声的; 3)他们的训练/测试组包含相同的类别,而对于少样本设置,我们希望训练/测试组包含不同的类别,以评估其在未见过的类别上的通用性。

为了开始构建数据集,我们首先从[54,56]中总结标签系统。我们将叶子标签合并到其原始标签树中,方法是将具有相同语义(例如,冰熊和北极熊)的叶子标签归为一类,并删除不属于任何叶子类别的语义。然后,我们删除标签质量差的图像和带有不合适尺寸的标记框的图像。具体而言,删除的图像具有小于图像大小的0.05%的框,这些框通常具有较差的视觉质量,因此不适合用作支撑示例。接下来,我们按照少样本学习设置将数据分为训练集和测试集,而没有重叠的类别。如果研究人员更喜欢预训练阶段,我们将使用MS COCO数据集中的类别构建训练集[13]。然后,我们通过选择现有训练类别中距离最大的类别来划分包含200个类别的测试集,其中距离是连接is-a分类法中两个短语的含义的最短路径[57]。其余类别将合并到总共包含800个类别的训练集中。总而言之,我们构建了一个包含1000个类别的数据集,其中明确地划分了用于训练和测试的类别,其中531个类别来自ImageNet数据集[56],而469来自开放图像数据集[54]。

数据集分析。 我们的数据集是专为少样本学习和评估新颖类别模型的通用性而设计的,该模型包含1000个类别,分别用于训练和测试集的800/200分割,总共有约66,000张图像和182,000个边框。表1和图3显示了详细的统计信息。我们的数据集具有以下属性:

图2. 数据集标签树。 ImageNet类别(红色圆圈)与采用超类的Open Image类别(绿色圆圈)合并。

类别的高度多样性:我们的数据集包含83种父级语义,例如哺乳动物,衣服,武器等,这些语义进一步细分为1000个叶子类别。我们的标签树如图2所示。由于严格的数据集划分,我们的训练/测试集包含非常不同的语义类别的图像,因此给要评估的模型提出了挑战。

具有挑战性的设置:我们的数据集包含对象大小和纵横比差异很大的对象,由26.5%的图像组成,其中测试集中的目标对象不少于3个。我们的测试集包含大量未包含在我们的标签系统中的类别的框,因此对于少样本的模型提出了巨大的挑战。

尽管我们的数据集具有大量类别,但是训练图像和框的数量比其他大规模基准数据集(例如MS COCO数据集)少得多,MS COCO数据集包含123,287张图像和约886,000个边界框。我们的数据集被设计为紧凑的,同时对少样本学习有效。

图3. FSOD的数据集统计。类别图像编号几乎平均分布。大多数类别(超过90%)具有少量或中等数量的图像(在[22,108]中),而最频繁的类别仍然不超过208张图像。

表1. 数据集总结。我们的数据集是多样的,并且框的大小和纵横比有很大的差异。

4.我们的方法

在本节中,我们首先定义我们的少样本检测任务,然后详细描述我们新颖的少样本目标检测网络。

4.1问题定义

给定一个带有目标对象特写的支持图像Sc和一个可能包含支持类别c的对象的查询图像Qc,任务是在查询中查找属于支持类别的所有目标对象,并用严格的边界框标记它们。如果支持集包含N个类别,每个类别包含K个示例,这样的问题就被称为N-way k-shot检测。

4.2深度注意力少样本检测

我们提出了一种新颖的注意力网络,它可以学习支持集与RPN模块和检测器上的查询图像之间的一般匹配关系。图4显示了我们网络的整体架构。具体来说,我们构建了一个由多个分支组成的权重共享框架,其中一个分支用于查询集,另一个分支用于支撑集(为简单起见,我们在图中仅显示了一个支持分支)。权重共享框架的查询分支是Faster R-CNN网络,其中包含RPN和检测器。我们利用此框架来训练支撑和查询特征之间的匹配关系,以使网络学习相同类别之间的知识。在此框架的基础上,我们引入了一种新颖的注意力RPN和具有多关系模块的检测器,以对支撑图像和查询图像中潜在框之间产生准确的解析。

图4. 网络架构。查询图像和支撑图像由权重共享网络处理。注意RPN模块通过关注给定的支撑类别来过滤掉其他类别的对象提议。然后,多关系检测器将查询建议与支撑对象进行匹配。对于N-way训练,我们通过添加N -1个支撑分支来扩展网络,其中每个分支都有自己的注意力RPN和带有查询图像的多关系检测器。对于K-shot训练,我们通过权值共享网络获得所有支撑特征,并在属于其支撑特征同一类别的所有支撑图像中使用平均特征。

4.2.1基于注意力的区域提案网络

在少样本目标检测中,RPN可用于产生可能相关的边界框,以促进以下检测任务。特别是,RPN不仅应用于区分目标还是非目标,还应过滤掉不属于支撑类别的负样本目标。但是,如果没有任何支撑图像信息,即使它们不属于支撑类别,RPN在具有高客观得分的每个潜在对象中也将毫无目标地活动,从而给检测器的后续分类任务增加了许多不相关的对象。为了解决这个问题,我们提出了基于注意力的RPN(图5),它使用支持信息来过滤掉大多数背景框和不匹配类别的背景框。因此,生成了一组较小且更精确的候选提案,其中包含潜在的目标对象。

图5. 注意力RPN。支持特征被平均池化到一个1×1×C的向量。然后,计算与查询特征的深度互相关,其输出用作关注特征,并馈入RPN以生成提案。

我们通过注意力机制向RPN引入支持信息,以指导RPN产生相关提案,同时取消其他类别的提案。具体来说,我们以深度方式计算支持特征图和查询特征图之间的相似度。然后利用相似度图来构建提案生成。特别地,我们将支持特征表示为X∈tS×S×C,将查询的特征图表示为Y∈tH×W×C,相似度定义为Gh,w,c=∑i,jXi,j,c⋅Yh+i−1,w+j−1,ci,j∈{1,...,S}G_{h,w,c}=\sum_{i,j} X_{i,j,c}\cdot Y_{h+i-1,w+j-1,c}\quad i,j\in \{1,...,S\}Gh,w,c​=i,j∑​Xi,j,c​⋅Yh+i−1,w+j−1,c​i,j∈{1,...,S}

其中G是结果关注特征图。这里,支持特征X用作内核,以深度互相关方式[60]在查询特征图[58,59]上滑动。在我们的工作中,我们采用RPN模型的顶层特征,即ResNet50中的res4_6。发现在我们的情况下,内核大小为S = 1时表现良好。这个事实与[25]一致,即全局特征可以为目标对象分类提供一个良好的目标先验。在我们的案例中,内核是通过对支持特征图进行平均来计算的。注意力图通过3×3卷积处理,然后是客观分类层和框回归层。带有损失LrpnL_{rpn}Lrpn​的注意力RPN如[25]中一样与网络一起训练。

4.2.2多重关系检测器

在R-CNN框架中,RPN模块后将是一个检测器,其重要作用是重新评估提案和类别识别。因此,我们希望检测器具有很强的区分不同类别的能力。为此,我们提出了一种新颖的多重关系检测器,可以有效地测量来自查询和支持对象的提议框之间的相似性,见图6。该检测器包括三个注意模块,分别是要学习用于全局匹配的深度嵌入的全局关系头局部相关头学习支持和查询建议之间的像素级和深度级互相关,而补丁关系头则用于学习深度非线性度量以进行补丁匹配。我们通过实验表明,三个匹配的模块可以相互补充以产生更高的性能。有关三个头的实现细节,请参阅补充材料。

图6. 多关系检测器。不同的关系头建模查询和支持图像之间的不同关系。全局关系头使用全局表示来匹配图像;局部关系头捕获像素到像素的匹配关系;补丁关系头模拟一对多像素关系。

我们需要哪些关系头? 我们遵循RepMet [61]中提出的N-wayK-shot评估协议来评估我们的关系头和其他组件。表2显示了我们在FSOD数据集的简单1-way1-shot训练策略和5-way5-shot评估下对我们提出的多关系检测器的消融研究。此后,我们对FSOD数据集上的所有消融研究使用相同的评估设置。对于单个头,局部关系头在AP50和AP75评估中均表现最佳。出人意料的是,尽管补丁关系头对图像之间更复杂的关系进行建模,但其性能却比其他关系头差。我们认为,复杂的关系头使模型难以学习。当组合任何两种类型的关系头时,我们获得的性能要优于单个关系头。通过组合所有关系头,我们获得了完整的多关系检测器,并获得了最佳性能,表明三个提出的关系头相互补充,可以更好地区分目标与非匹配对象。因此,以下所有实验均采用完整的多关系检测器。

表2. 1-way1-shot训练策略中不同关系头部组合的实验结果。

4.3双向对比训练策略

自然的训练策略是通过构造训练对(qc,sc)来匹配相同类别的对象,其中查询图像qc和支持图像sc来自同一个类别c。但是,好的模型不仅应匹配相同的类别对象,而且还应区分不同的类别。因此,我们提出了一种新颖的两路对比训练策略。

根据图7中不同的匹配结果,我们提出了两路对比训练,以在区分不同类别的同时匹配相同类别。我们随机选择一个查询图像qc,一个包含相同第c个类别对象的支持图像sc和另一个包含不同第n个类别对象的支持图像sc,以构造训练三元组(qc,sc,sn),其中c≠n。在训练三元组中,仅将查询图像中的第c个类别对象标记为前景,而将所有其他对象视为背景。

图7. 两路对比训练三元组和不同的匹配结果。在查询图像中,只有正支持与目标真值具有相同的类别。匹配对包括正支持和前景建议,非匹配对具有三类:(1)正支持和背景建议;(2)负支持和背景建议;(3)负支持和背景建议。

在训练期间,模型学习将查询图像中的注意力RPN生成的每个建议与支持图像中的对象进行匹配。因此,模型不仅学会匹配(qc,sc)之间的相同类别对象,而且还区分(qc,sn)之间的不同类别的对象。但是,有大量的背景建议通常会主导培训,尤其是对于负样本支撑图片。因此,我们在查询提议和支持之间平衡这些匹配对的比率。对于前景提案和正支持对(pf,sp),背景提案和正支持对(pb,sp),提案(前景或背景)和否定支持对(p, sn)。我们选择所有N(pf,sp)对,并根据它们的匹配分数分别选择前2N(pb,sp)对和前N(p,sn)对,并计算所选对上的匹配损失。在训练过程中,我们在每个采样提议上使用多任务损失,即L=Lmatching+LboxL = L_{matching} + L_{box}L=Lmatching​+Lbox​,边界框损失Lbox如[24]中所定义,匹配损失为二进制交叉熵。

哪种训练策略更好? 请参阅表3。我们使用2-way1-shot对比训练策略训练模型,与单纯1-way1-shot对比训练策略相比,获得了7.9%的AP50改善,这表明了在学习训练过程中如何区分不同类别的重要性。经过5-shot的训练,我们取得了进一步的提升,少样本测试可以从少样训练中获益这一点在[1]中也得到了验证。将我们的双向训练策略扩展到多向训练策略很简单。但是,从表3中可以看出,5-way训练策略的效果并不比2-way训练策略更好。我们认为,只有一个否定支持类别足以训练用于区分不同类别的模型。因此,我们的完整模型采用了2-shot5-way对比训练策略。


表3. 使用多关系检测器进行训练策略和注意力RPN的实验结果。

哪个RPN更好? 我们根据不同的评估指标评估注意力RPN。为了评估提案的质量,我们首先评估常规RPN和我们提出的RPN超过0.5 IoU阈值的前100个提案的召回率。我们提出的RPN具有比常规RPN更好的召回性能(0.9130对0.8804)。然后,我们评估这两个RPN真值框的平均最佳重叠率(ABO [62])。注意力RPN的ABO为0.7282,而常规RPN的相同度量为0.7127。这些结果表明,注意力RPN可以生成更多高质量的建议。

表3进一步比较了在不同训练策略下具有注意力RPN的模型和具有常规RPN的模型。在AP50和AP75评估上,注意力RPN的模型始终比常规RPN表现更好。在AP50 / AP75评估中,注意力RPN在1-way1-shot训练策略中产生0.9%/ 2.0%的收益,在2-way5-shot训练策略中产生2.0%/ 2.1%的收益。这些结果证实,注意力RPN会产生更好的建议并有益于最终的检测预测。因此,在我们的完整模型中采用了注意力RPN。

5.实验

在实验中,我们将我们的方法与不同数据集上的最新技术(SOTA)方法进行了比较。我们通常在FSOD训练集上训练完整模型,并直接在这些数据集上进行评估。为了与其它方法公平比较,我们可能会放弃对FSOD的训练,而采用与这些方法相同的训练/测试设置。在这些情况下,我们将在微调阶段使用Multi-way few-shot训练,并进行更多描述。

5.1训练细节

我们的模型在4个Tesla P40 GPU上使用随机梯度下降进行了端到端训练,批处理大小为4(用于查询图像)。对于前56000次迭代,学习率为0.002;对于随后的4000次迭代,学习率为0.0002。我们观察到,在ImageNet [56]和MS COCO [13]上的预训练可以提供稳定的低级特征,并产生更好的收敛点。鉴于此,除非另有说明,否则默认情况下,我们从[13,56]上的预训练ResNet50训练模型。在训练过程中,我们发现更多的训练迭代可能会损害性能,其中太多的训练迭代会使模型过度适合训练集。我们固定Res1-3的权重,只训练高层以利用低层基本特征,并避免过度拟合。查询图像的短边调整为600像素;较长的一侧上限为1000。将支持图像裁剪为具有16像素图像上下文的目标对象,并进行零填充,然后将其调整为320×320的正方形图像。对于少样本训练和测试,我们融合了通过平均具有相同类别的对象特征,然后将它们提供给注意RPN和多重关系检测器。我们采用经典指标[21]进行评估,即AP,AP50和AP75。

5.2与最新方法的比较

5.2.1 ImageNet检测数据集

在表4中,我们将我们的结果与LSTD [9]和RepMet [61]在具有挑战性的基于ImageNet的50-way5-shot检测场景下的结果进行了比较。为了公平比较,我们使用他们的评估协议和测试数据集,并且使用相同的MS COCO训练集来训练我们的模型。在评估过程中,我们还使用soft-NMS [63]作为RepMet。与AP50评估中的最新技术(SOTA)相比,我们的方法可提高1.7%的性能。

为了展示我们方法的泛化能力,我们直接在训练集上应用在FSOD数据集上训练的模型,在AP50评估中获得41.7%的结果,这比我们的微调模型好得多(表4)。应当指出,我们在FSOD数据集上训练的模型可以直接应用于测试集,而无需进行微调即可以实现SOTA性能。此外,尽管我们在FSOD数据集上训练的模型的AP50性能比在MS COCO数据集上的微调模型要好一些,但在AP75评估上,我们的模型比微调模型高出6.4%,这表明我们提出的FSOD数据集有利于少样本目标检测。通过在测试集上进一步微调经过FSOD训练的模型,我们的模型可以达到最佳性能,同时请注意,与SOTA相比,不进行微调的方法已经十分有效。

表4.在5种支持下的50种新颖类别的ImageNet检测数据集上的实验结果。 †表示从FSOD训练数据集中删除了测试类别。ImageNet表示该模型已在ImageNet Detection数据集上进行了微调。

5.2.2 MS COCO数据集

在表5中,我们将我们的方法1与特征重加权[10]和Meta R-CNN [12]在MS COCO minival集上的进行了比较。我们遵循他们的数据划分并使用相同的评估协议:我们将PASCAL VOC中包含的20个类别设置为新颖的评估类别,并将MS COCO中的其余60个类别用作训练类别。在AP / AP50 / AP75度量上,具有相同MS COCO训练数据集的经过微调的模型比Meta R-CNN的性能高出2.4%/ 1.3%/ 4.0%。这证明了我们的模型具有强大的学习和泛化能力,并且在少样本情况下,学习一般匹配关系比学习类别特定的嵌入更有希望[10,12]。我们针对FSOD进行训练的模型在AP / AP50 / AP75度量上实现了7.9%/ 12.2%/ 9.5%的显著改进。请注意,我们在FSOD数据集上训练的模型无需进一步微调即可直接应用于新颖类别,而所有其他方法均使用10种支撑进行微调以适应新颖类别。同样,在不进行微调的情况下,我们的在FSOD上训练的模型已经展现比最新方法更好的效果。
表5. MS COCO minival集上的20种新颖类别的实验结果,其中包含10种支持。 †表示从FSOD训练数据集中删除了测试类别。√coco表示可以在MS COCO数据集上对该模型进行微调。

5.3实际应用

我们将我们的方法应用于不同的实际应用场景中,以证明其泛化能力。图8显示了我们测试集中新类别上定性的1-shot目标检测结果。我们进一步将我们的方法应用于野生企鹅检测[64],并在图9中显示样本定性5-shot目标检测结果。

新颖的类别检测。 考虑这种常见的现实世界应用场景:给定相册或电视连续剧中的大量图像而没有任何标签,任务是在给定的大量集合中注释一个新颖的目标对象(例如,火箭),而不知道其中包含哪些图像目标对象,可以存在不同的大小和位置(如果存在)。为了减少体力劳动,一种解决方案是手动查找少量包含目标对象的图像,为它们添加注释,然后应用我们的方法来自动注释图像集合中的其余对象。按照此设置,我们执行以下评估:我们混合FSOD数据集的所有测试图像,对于每个对象类别,我们选择5个包含目标对象的图像,以便在整个测试集中执行这种新颖的类别对象检测。注意,与标准对象检测评估不同,在此评估中,模型分别评估每个类别,并且不了解完整类别。

我们将LSTD与[9]进行比较,后者需要通过将知识从源域转移到目标域来进行新颖类别的培训。但是,我们的方法可以应用于检测新颖类别中的对象,而无需任何进一步的重新训练或微调,这与LSTD根本不同。为了进行经验比较,我们将LSTD调整为基于Faster R-CNN,并以公平配置分别针对每个测试类别在5个固定支撑上对其进行重新训练。结果显示在表6中。在AP50 / AP75度量的所有200个测试类别中,我们的方法的性能优于LSTD的3.3%/ 5.9%,其主干Faster R-CNN的性能优于4.5%/ 6.5%。更具体地说,如果没有对我们的数据集进行预训练,Faster R-CNN的性能将大大下降。请注意,由于模型仅知道支持类别,因此基于微调的模型需要分别训练每个类别,这非常耗时。

野外车辆检测。 我们将我们提出的方法2应用于KITTI [52]和Cityscapes [65]数据集上的野车检测,这些数据集是用于驾驶应用的城市场景数据集,其中图像由车载摄像机捕获。评估带有7481张图像的KITTI训练集和包含500张图像的Cityscapes验证集上的汽车类别的性能。 DA Faster R-CNN [66]使用来自源域(KITTI / Cityscapes)的大量注释数据和来自目标域(Cityscapes / KITTI)的未标记数据来训练域自适应Faster R-CNN,并评估目标域的性能。在没有任何进一步训练或微调的情况下,我们的带有10-shot支持的模型在野外车辆检测任务中获得了相当甚至更好的AP50性能(Cityscapes分别为37.0%和38.5%,KITTI为67.4%和64.1%)。请注意,DA Faster R-CNN是专为野外车辆检测任务而设计的,并且它们在相似的领域中使用更多的训练数据。

表6. 在200种新颖类别的FSOD测试集上的实验结果,并在新颖类别检测中评估了5种支持。 √fsod表示在FSOD数据集上对模型进行了微调。

图8. 我们在FSOD测试集上的方法的定性1-shot检测结果。放大附图以获取更多视觉细节。

图9. 我们的应用程序在企鹅数据集上的结果[64]。给定5个企鹅图像作为支持,我们的方法可以检测给定查询图像中的所有野生企鹅。

5.4更多类别还是更多样本?

我们提出的数据集具有大量的目标对象类别,但每个类别中的图像样本都很少,因此我们认为这有利于少样本的检测。为了确认这种好处,我们在MS COCO数据集上训练了我们的模型,该数据集包含超过115,000张图像和仅80个类别。然后,我们在具有不同类别编号的FSOD数据集上训练模型,同时保持相似数量的训练图像。表7总结了实验结果,我们发现尽管MS COCO的训练图像最多,但其模型性能却最差,而FSOD数据集训练的模型在保持相似数量的训练图像的同时随着类别数量的增加而具有更好的性能。表示数量过多的类别数量有限实际上会阻碍少样本的检测,而类别数量众多则可以始终使任务受益。因此,我们得出结论,类别多样性对于少样本检测至关重要。

表7. 我们的模型在FSOD测试集上的实验结果在5-way5-shot评估中具有不同数量的训练类别和图像。

6.总结

我们介绍了一种具有注意力RPN,多关系检测器和对比训练策略的新型少样本检测网络。我们贡献了一个新的FSOD数据集,其中包含1000个类别的各种目标对象以及高质量的注释。我们在FSOD上训练的模型可以检测不需要预先训练或进一步进行网络适应的新颖类别的对象。我们的模型已经通过对不同数据集的大量定量和定性结果进行了验证。本文为少样本目标检测做出了贡献,并且我们相信,具有上述技术贡献的大规模FSOD数据集和检测网络可以产生有价值和相关的未来工作。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐