您的位置：首页 > 移动开发 > Objective-C

论文笔记（1）DenseBox: Unifying Landmark Localization with End to End Object Detection

2015-09-30 16:34 561 查看

本文的贡献有一下几点：

1，实现了end-to-end的学习，同时完成了对bounding box和物体类别的预测；

2，在多任务学习中融入定位信息，提高了检测的准确率。

我们先来看看他和其他几篇代表性文章之间的不同。

在OverFeat[1]中提出了将分类和定位问题一起解决的思想，但这两个任务在训练阶段是分开进行的，并且需要复杂的后续处理来得到检测结果，而在本文中多任务的学习是end-to-end;

DDFD[2]是一个基于CNN的人脸检测系统，它比R-CNN的性能更好的原因在于R-CNN在proposal的产生过程中会遗失一些脸部信息。但DDFD的类别预测和bounding box定位也是分为两个阶段进行的；

Faster R-CNN[3]通过RPN完成proposal的生成，RPN需要预先定义好的anchors，而且RPN是在多尺度物体上进行训练的。

MultiBox[4]运用CNN来生成proposal而不是selective search，它生成的bounding box不具有不变性，而本文生成的bounding box和RPN一样，具有转换不变性；

YOLO[5]和DenseBox一样也可完成end-to-end的学习，但两者的输出层设计不一样。YOLO针对每个图像输出49个bounding box,DenseBox则通过上采样层来保证分辨率相对较高的输出，同时运用了下采样。。这使得我们的网络在处理小物体和高度重合的物体上有很大的优势。

从上图可以看到，只需要单独的卷积网络就可以同时输出多个预测到的bounding box和分类结果，除了nms之外，检测系统的所有组成部分都构建在FCN之中。

在图像预处理阶段，在保证人脸和足够的背景信息下对图片进行了剪切。

在训练过程中，将原始图片剪切到240*240大小，保证处于中心的脸部高度为50p，输出的ground truth是一个5通道的大小为60*60的特征图。

上图是本文的网络结构图。红色部分表示存在学习参数。前12个conv层的网络参数由VGG19模型参数直接初始化，conv4_4的输出作为后续四个1*1卷积层的输入，前两个输出的是通道1的特征图，用于分类预测，后两个利用通道4的特征图来预测bounding box的相对位置。这种有两个输出分支的结构和Fast R-CNN很相似，在第一个输出端口定义分类损失函数，在第二个定义bounding-box回归损失函数，这样就可定义完整的损失函数。

文中还谈及了采样均衡问题，并对输出像素进行二进制标记来决定其是否被选来用于训练。

首先是直接忽略正负区域的边界，并将其loss weight设为0，其次是倾向选择预测发生严重错误的样本，这一过程通过negative mining实现，基于这些样本的梯度学习使得学习更加的鲁棒。

参考文献：

[1] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y.LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. arXiv preprint arXiv:1312.6229, 2013.

[2] S. S. Farfade, M. Saberian, and L.-J. Li. Multi-view face detection using deep convolutional neural networks. arXiv preprint arXiv:1502.02766, 2015.

[3] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.

[4] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on,pages 2155–2162. IEEE, 2014.

[5] J. Redmon, S. K. Divvala, R. B. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arXiv preprint, abs/1506.02640, 2015.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航