您的位置：首页 > 其它

目标检测学习笔记

2018-01-11 18:17 239 查看

只是来放干货和自己的一点笔记哈，因为没收到原博主的转载回复，就先放链接。

http://blog.csdn.net/standing_on_giant/article/details/60333329

http://blog.csdn.net/myarrow/article/details/51878004#t19

这里解释下map这个评价指标哈，ap是：召回率和准确率 roc（recall
and precision）曲线下的面积，map是是mean ap，用在多类别情况，取一个mean。

还有一张我很喜欢的图：很精髓哈。

接下来说一下SSD：

论文链接：https：//arxiv.org/pdf/1311.2524.pdf

参考的博客: http://blog.csdn.net/u010167269/article/details/52563573

http://blog.csdn.net/qq_14845119/article/details/53331581

论文的翻译链接：http://lib.csdn.net/article/deeplearning/53059

SSD产生：offests and scores... 产生类别的分数或相对于默认框的坐标偏移

一、default box就是下面的一个个小的虚线框，feature map cell是以下将会提到的 multiscale feature maps。

给出的参考博文关于feature map cell的有点不太清楚，feature map cell是指后面会用到的multiscale feature map，然后对这些maps进行prediction。

二、SSD的框架：

边界框偏移输出值是相对于默认框测量，默认框位置则相对于特征图。

这里解释下classifier：3x3x（4×（classes + 4））是什么意思，我的理解是：3×3是使用的卷积核的尺寸;（classes
+ 4）是因为，上面提到了SSD会产生框的坐标信息和各个类别score向量. classes就是score向量的长度（也就是总类别数），+4是坐标偏移信息(边界框的中心和其宽度和高度的偏移，后文会更详细的介绍)；至于剩下的那个4×，我认为是feature
map cell里的different aspect ratios boxes个数，3x3x（6x（classes
+ 4））同理，即 feature map cell 里面有6个boxes。

你看这不是4个虚线框嘛（两黑两篮）

三、匹配策略matching strategy：(也就是ground truth 和 default box 间的关系)

参考链接：http://blog.csdn.net/u013989576/article/details/73439202

在训练时，我们需要建立真实标签和默认框之间的对应关系。请注意，对于每个真实标签框，我们从默认框中进行选择，这些默认框随位置、纵横比和比例而变化。起始时，我们匹配每个真实标签框与默认框最好的jaccard重叠(也即对应最大jaccord值的那个默认框)。这是原始MultiBox
[7]使用的匹配方法，它确保每个真实标签框有一个匹配的默认框。另一种是：匹配默认框与真实标签jaccard重叠高于阈值（0.5）的默认框。添加这些匹配简化了学习问题：它使得有多个重叠默认框时网络预测获得高置信度，而不是要求它选择具有最大重叠的那个。

四、Loss

训练过程提出了Smooth L1 loss + softmax loss，将位置定位的准确度值和得分置信度融合起来，从而使得对目标物的检测和识别都表现出state-of-the-art的效果。

要算的4个偏移量：

文中还提到了感受野，给一个感受野的计算链接： http://blog.csdn.net/kuaitoukid/article/details/46829355

五、为default选取尺寸和长宽比：

这一段比较“难”理解：不同scale的feature map，我们对应给出不同scale的default boxes。default boxes的scale计算公式是上图中的(4)。令m=5，我算了一下，sk:0.2 0.375 0.55 0.725 0.9 (我的理解是：这5个计算出的小数，是要分别乘到他们对应的feature map尺寸值上的... 即对于第一张map，8x8大小，则它的default box的基础值就是8*0.2，然后结合ar可求出w h：w=8*0.2*sqart(ar), h=8*0.2/sqart(ar)
对于第二张map，尺寸是6x6的话，则6*0.375，然后类似第一张那样去操作......)。

然后是设定default box的长宽比：1，2，3，1/2，1/3。这就有5个了。对于rate=1的情况，再多给个sk'：sk'=sqart(sk*sk+1)，sk'*size(map), 这个值再去与ar计算，可得到w h 值，即又一个default box了.....

六、控制正负样本比例：

七、测试test推理部分

首先是把阈值设置为0.01，很大部分的proposal可以被去除，然后再使用nms...

表示这里没看懂...这个nms怎么操作？ overlap=0.45 top200?

待续......

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航