您的位置：首页 > 其它

关于深度学习目标检测的一些改进方法

2018-01-24 13:29 615 查看

1.背景上下文

一些文章通过一些手段引入背上下文提高了一定的目标检测精度，如：

A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection 在检测子网络中添加了上下文池化

Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks

通过引入2次IRNN层添加上下文信息

2. 时域上下文

基于视频的目标检测，有利用考虑时域信息的3D卷积、时域上利用RNN提取时域上下文、光流信息等，可利用时域上下文做行为识别，目标跟踪，目标定向等。

视频检测是比单张图片检测多了Temporal Context（时域上下文）的信息。不同方法想利用这些Context来解决的问题并不相同。一类方法是关注如何使用这部分信息来加速Video Detection。因为相邻帧之间存在大量冗余，如果可以通过一些廉价的办法来加速不损害性能，在实际应用中还是很有意义的。另一类方法是关注这部分信息可以有效减轻单帧图片检测中由于运动模糊，物体面积过小导致的困难，从而来提升性能。当然，这里有一些很简单的baseline方法，例如直接使用tracking关联。

CUHK: Xiaogang Wang等，最开始 (TPAMI Short)是通过Motion的信息以及多类之间的Correlation来对单帧图像detector的输出进行后处理，算是在前面提到的Baseline方法上的小改进。后续的文章(CVPR 16)在这个基础上，引入了一个Temporal CNN对每一个Tubelet进行rescore。这样通过Temporal的信息来重新评估每个proposal的置信度。最近的工作(CVPR17)将Proposal生成这个步骤，也从静态图片拿到了时序上来做。除此之外，对于每个Tubelet的分类，也采取了流行的LSTM。

MSRA: Jifeng Dai 等，其核心都在于通过快速计算Optical Flow来捕捉视频中的Motion信息，然后通过这个Flow的信息使用Bilinear Sampling对之前的Feature Map进行Warp（也就是通过Optical Flow来预测当前帧的Feature Map）。有了这样的信息之后，如果我们想加速，那么可以直接使用预测的Feature Map来输出结果；如果想得到更好的结果，可以将预测的Feature Map和当前帧计算出来的Feature Map融合起来一起输出结果。

3. 多尺度

multi-scale已经成为提高检测精度的标配了，利用不同尺度的特征层信息，生成不同尺度的建议框，其实就是穷举了一幅图像可能有目标的地方，再进行一定的抑制。

A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

提出了一种由提案子网络和检测子网络组成的多尺度CNN。在多个输出层进行RPN执行检测，并将这些互补的特定尺寸的检测器组合起来以产生强大的多尺度对象检测器。还提出了通过反卷积的特征上采样，作为输入上采样的替代，以减少存储器和计算成本。

Feature Pyramid Networks for Object Detection

其主要考虑利用深度卷积网络固有的多尺度金字塔形层次结构来构建特征金字塔，创建了一个具有横向连接的自顶向下架构用于在所有尺度上构建高级语义特征图，FPN作为通用特征提取器表现优异，论文研究表明，尽管深度卷积层具有强大的表达能力和对尺度变化内在的鲁棒性，使用金字塔表示来明确地解决多尺度问题仍然是十分重要的。

RON: Reverse Connection with Objectness Prior Networks for Object Detection

其主要考虑两个问题，多尺度目标定位和负样本挖掘，并分别提出Reverse Connection使得网络能在CNN多尺度检测目标和Objectness Prior减少目标的搜索空间，最后通过多任务损失联合优化Reverse Connection、Objectness Prior和目标检测器。

4. 其他

Perceptual Generative Adversarial Networks for Small Object Detection

小目标因其低分辨率和噪声表示检测困难，现有方法主要考虑在多尺度学习所有目标的特征表示，其受限于计算复杂度。其主要考虑建立单个架构来解决小目标检测问题，该架构将小目标的表示提升到“super-resolved”，从而实现与大目标类似的特征，从而对于检测任务更加具有辨别能力。利用生成式对抗网络，其提出Perceptual GAN模型，通过缩小小目标与大目标的表示差异来改善小目标检测。

R-FCN: Object Detection via Region-based Fully Convolutional Networks

提出了位置敏感分数图来解决图像分类中的平移不变性和物体检测中的平移方差的困难

Soft-NMS – Improving Object Detection With One Line of Code

对NMS进行优化等

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 目标检测

相关文章推荐

新的分享

章节导航