您的位置：首页 > 大数据 > 人工智能

深度学习笔记（一）：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

2017-08-25 10:18 519 查看

一、目的

   对于跟踪问题来说，CNN应该是由视频跟踪的数据训练得到的更为合理。

   但用跟踪数据来训练很难，因为同一个object，在某个序列中是目标，在另外一个序列中可能就是背景，而且每个序列的目标存在相当大的差异，而且会经历各种挑战，比如遮挡、形变等等。

   现有的很多训练好的网络主要针对的任务比如目标检测、分类、分割等的网络很大，因为他们要分出很多类别的目标。

   目前很多训练好的网络都过大，若在跟踪问题中，一个网络只需要分两类：目标和背景，则网络不必过大。由此提出MDNet网络。

二、MDNet网络

   1、结构

      1）input

         107*107的RGB图像（采集的样本）

      2）Shared Layers

         3个卷积层+2个全连接层，共享层输出512个通道特征

      3）Domain-specific Layers

         Fc6对应一个二分类的全连接层，带有softmax交叉熵损失函数，来区分目标与背景；输出二维向量，分别表示输入的边界框的目标与背景的得分概率；对应K个分支（K个不同类别的视频），每次训练使用对应该视频的一个分支；

   2、训练数据

      mini-batch的构成是从某一视频中随机采的8帧图片，再从每一帧图片上取50个正样本和200个负样本，从这些正负样本中取32个正样本和96个负样本（利用了hard
negative mining），即每个mini-batch由某一个视频的128个框来构成，也就是说每个视频都只训练一个mini-batch。

   3、训练过程

     1）目的：让共享层学到不同域共同的特性（光照变换、运动模糊、尺度变换），让不同分支的特定域层学到该域特有的一些特征。

      2）利用迭代方法：假设有K个训练视频，一共做100次循环。在每次循环中，会做K次迭代，一次用K个视频的mini-batch来做训练，重复进行100次循环。用SGD（随机梯度下降算法）进行训练，每个视频会对应自己的fc6层。

      3）经过这种训练，最终确定w1-w5。同时，由于共性已被提取，fc6的分支的作用也已经完成，在进行测试时，会新建一个fc6层，在线调整，其它层保持不变。

   4、测试

当开始进行测试，原来fc6的那些分支全被取消，再重新建立一个fc6，其它层不变，其中w1-w3固定，w4-w6在测试中在线微调。

三、利用MDNet在线跟踪

1、网络在线更新

   更新用的是正负样本S+、S-，更新的是w4-w6，在线更新方法：

1）long-term：长期更新是在固定时间内做一次更新（文中10帧1次）

2）short-term：短期更新是当目标得分<0.5时进行

   2、正负样本提取

      1）离线训练网络时：以ground-truth bounding box（真实边界框）为准，得分>0.7的为正样本S+，得分<0.5的为负样本S-；

      2）在线跟踪时：以estimated target bounding box（估计目标边界框）为准，得分>0.7的为正样本S+（50个），得分<0.3的为负样本S-（200个）；第一帧给出目标位置，在其周围选取500个正样本，5000个负样本

   3、在线跟踪

      1）给出一个视频，其中选取的第一帧标记好目标位置，其后每新来的一帧图片，都以上一帧图片的目标位置为中心，用（宽，高，尺度）的形式选取256个candidates，记为xi，i=1,2,...,256（i为上角标）

      2）再将它们的大小归一化为107*107，输入到已训练好的MDNet网络（共享层+fc6）

      3）输出一个二维向量（bounding box对应目标，目标概率），最终目标是概率值最高的bounding box；最佳目标状态：

      4）再做一次bounding box regression，以此提高精度。

   4、算法

四、实验结果

1、OTB

2、VOT2014

五、结论

   MDNet效果好的原因：

      1、用了CNN特征，并且是专门为了tracking设计的网络，用tracking的数据集做了训练；

      2、有做在线的微调fine-tune，这一点虽然使得速度慢，但是对结果很重要；

      3、Candidates的采样同时也考虑到了尺度，使得对尺度变化的视频也相对鲁棒；

      4、Hard negative mining和bounding box regression这两个策略的使用，使得结果更加精确。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航