您的位置:首页 > 移动开发 > Objective-C

论文笔记(1)DenseBox: Unifying Landmark Localization with End to End Object Detection

2015-09-30 16:34 561 查看
本文的贡献有一下几点:

1,实现了end-to-end的学习,同时完成了对bounding box和物体类别的预测;

2,在多任务学习中融入定位信息,提高了检测的准确率。

我们先来看看他和其他几篇代表性文章之间的不同。

在OverFeat[1]中提出了将分类和定位问题一起解决的思想,但这两个任务在训练阶段是分开进行的,并且需要复杂的后续处理来得到检测结果,而在本文中多任务的学习是end-to-end;

DDFD[2]是一个基于CNN的人脸检测系统,它比R-CNN的性能更好的原因在于R-CNN在proposal的产生过程中会遗失一些脸部信息。但DDFD的类别预测和bounding box定位也是分为两个阶段进行的;

Faster R-CNN[3]通过RPN完成proposal的生成,RPN需要预先定义好的anchors,而且RPN是在多尺度物体上进行训练的。

MultiBox[4]运用CNN来生成proposal而不是selective search,它生成的bounding box不具有不变性,而本文生成的bounding box和RPN一样,具有转换不变性;

YOLO[5]和DenseBox一样也可完成end-to-end的学习,但两者的输出层设计不一样。YOLO针对每个图像输出49个bounding box,DenseBox则通过上采样层来保证分辨率相对较高的输出,同时运用了下采样。。这使得我们的网络在处理小物体和高度重合的物体上有很大的优势。



从上图可以看到,只需要单独的卷积网络就可以同时输出多个预测到的bounding box和分类结果,除了nms之外,检测系统的所有组成部分都构建在FCN之中。

在图像预处理阶段,在保证人脸和足够的背景信息下对图片进行了剪切。



在训练过程中,将原始图片剪切到240*240大小,保证处于中心的脸部高度为50p,输出的ground truth是一个5通道的大小为60*60的特征图。



上图是本文的网络结构图。红色部分表示存在学习参数。前12个conv层的网络参数由VGG19模型参数直接初始化,conv4_4的输出作为后续四个1*1卷积层的输入,前两个输出的是通道1的特征图,用于分类预测,后两个利用通道4的特征图来预测bounding box的相对位置。这种有两个输出分支的结构和Fast R-CNN很相似,在第一个输出端口定义分类损失函数,在第二个定义bounding-box回归损失函数,这样就可定义完整的损失函数。

文中还谈及了采样均衡问题,并对输出像素进行二进制标记来决定其是否被选来用于训练。

首先是直接忽略正负区域的边界,并将其loss weight设为0,其次是倾向选择预测发生严重错误的样本,这一过程通过negative mining实现,基于这些样本的梯度学习使得学习更加的鲁棒。

参考文献:

[1] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y.LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. arXiv preprint arXiv:1312.6229, 2013.

[2] S. S. Farfade, M. Saberian, and L.-J. Li. Multi-view face detection using deep convolutional neural networks. arXiv preprint arXiv:1502.02766, 2015.

[3] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.

[4] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on,pages 2155–2162. IEEE, 2014.

[5] J. Redmon, S. K. Divvala, R. B. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arXiv preprint, abs/1506.02640, 2015.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: