您的位置：首页 > 其它

Two-Stream Convolutional Networks for Action Recognition in Videos

2017-06-05 21:41 489 查看

1 Introduction

视频中人类行为识别是一项具有挑战性的任务，在研究界得到了极大关注[11，14，17，26]。与静态图像分类相比，视频的时间分量为识别提供了额外的（重要的）线索，因为可以基于运动信息可靠地识别多个动作。另外，视频为单一图像（视频帧）分类提供自然数据增强（抖动）。

在本文中，我们的目标是扩展深层卷积网络（ConvNets）[19]，一种最先进的静态图像表示[15]，进行视频数据中的行为识别。这个任务最近在[14]中通过使用堆叠的视频帧作为网络的输入来解决，但结果比最好的hand-crafted浅层表示的结果差得多[20,26]。我们研究基于两个单独的识别流（空间和时间）的不同架构，然后通过晚期融合进行组合。空间流从静止视频帧执行动作识别，而时间流被训练以密集光流的形式识别来自运动的动作。两个流的实现都ConvNets。解耦空间和时间网络也使我们能够通过在ImageNet挑战数据集上预训练空间网来利用大量注释图像数据[1]。我们提出的架构与双流假说相关[9]，根据该假设，人类视觉皮层包含两条途径：ventral
stream（执行对象识别）和dorsal stream（识别运动），虽然我们不会在这里进一步调查此连接。

本文的其余部分组织如下。在 1.1节我们概述使用浅层和深层架构进行行为识别的相关工作。在第2节我们介绍双流架构，并确定Spatial ConvNet。第3节介绍了Temporal ConvNet，特别是如何概括了在Sect1.1中回顾的以前的架构。Sect 4中开发了一个多任务学习框架，以便允许在多个数据集上轻松组合训练数据。实现细节见Sect 5，第6节评估性能并与现有最先进技术相比较。我们在两个具有挑战性的数据集（UCF-101
[24]和HMDB-51 [16]）的实验表明，两个识别流是互补的，我们的深层架构明显优于[14]，并且尽管在相对较小的数据集上进行了训练，但是与现有最先进技术的浅表示[20,21,26]具有竞争力。

1.1 Related work

视频识别研究主要是由图像识别方法的进步驱动的，图像识别方法经常被适应和扩展以处理视频数据。很多视频动作识别方法是基于局部时间-空间特征的浅层高维编码。例如，[17]的算法在于检测稀疏时空的兴趣点，然后使用局部时空特征：HOG[7]和光流直方图（HOF）来描述。这些特征然后被编码成Bag Of Features（BoF）表示，其被在几个时空网格上池化（类似于空间金字塔池化）并与SVM分类器组合。在后来的工作[28]中，显示出局部特征的密集采样优于稀疏的兴趣点。

不是在时空立方体计算局部视频特征，最先进的浅层视频表示[20,21,26]使用dense point trajectories。首先在[29]中介绍的方法，在于调整局部描述符支持区域，使它们遵循使用光流计算的密集轨迹。基于轨迹的pipeline中的最佳性能是通过Motion Boundary Histogram（MBH）[8]实现的，该Motion Boundary Histogram是基于梯度的特征，其分别在光流的水平和垂直分量上计算。显示了几个特征的组合，以进一步提高精度。最近基于轨迹的hand-crafted
表示的改进包括全局（摄像机）运动的补偿[10,16,26]，以及Fisher向量编码[22]（在[26]）或其更深层变体[23] （在[21]）。

还有一些尝试开发视频识别的深层架构。在大多数这些工作中，网络的输入是一堆连续的视频帧，因此该模型期望在前几层中隐含地学习时空运动相关特征，这可能是一项困难的任务。在[11]中，在第一层中提出了一种用于视频识别的HMAX架构，其具有预定义的时空滤波器。之后，它与空间HMAX模型[16]相结合，从而形成空间（ventral-like）和时间（dorsal-like）识别流。然而，与我们的工作不同的是，这些流被实现为手hand-crafted而且相当浅（3层）HMAX模型。在[4,18,25]中，使用卷积RBM和ISA用于空间时空特征的无监督学习，然后将其插入用于动作分类的判别模型。视频convnets的端到端学习已经在[12]中得到解决，最近，在[14]中，比较了几个用于动作识别的ConvNet体系结构。训练是在一个非常大的Sports-1M数据集上进行的，包括1.1M的YouTube体育活动视频。有趣的是，[14]发现，在单个视频帧上运行的网络与输入是一叠帧的网络类似。这可能表明学习的时空特征不能很好地捕获运动。在UCF-101数据集上微调学习到的表示被证明比hand-crafted的最先进的基于轨迹的表示精度低20％[20,27]。

我们的时间流ConvNet在多帧密集光流上运行，通常通过求解位移场（通常在多个图像尺度）在能量最小化框架中计算。我们使用了流行的[2]的方法，其基于强度及其梯度的恒定性假设以及位移场的平滑度来制定能量。最近，[30]提出了一种图像块匹配方案，这让人想起深层ConvNets，但并没有纳入学习。

2 Two-stream architecture for video recognition

视频自然的可以分解为空间和时间分量。单个帧外观形式的空间部分携带有关视频中描绘的场景和对象的信息。以帧间的运动形式的时间部分传达观察者（摄像机）和物体的运动。我们设计了我们的视频识别架构，将其分为两个流，如图1所示。每个流都使用深层ConvNet实现，softmax得分通过晚期融合相结合。我们考虑两种融合方法：平均和训练以堆叠的L2标准化的softmax分数作为特征的多类别线性SVM
[6]。

空间流ConvNet可以对各个独立视频帧进行操作，从静止图像中有效地执行动作识别。静态外观本身是一个有用的线索，因为一些动作与特定对象强烈关联。事实上，正如将在第6节所述，静态帧（空间识别流）的动作分类本身具有相当的竞争力。由于空间ConvNet本质上是一个图像分类架构，我们可以基于大型图像识别方法的最新进展[15]，并在大型图像分类数据集（如ImageNet挑战数据集）进行预训练。详细内容见第5节。接下来，我们描述时间流ConvNet，其利用运动并显着提高精度。

3 Optical flow ConvNets

在本节中，我们描述一个ConvNet模型，它形成了我们架构的时间识别流（第2节）。在Sect1.1概述的 ConvNet模型不同，我们模型的输入是通过在几个连续帧之间堆叠光流位移场而形成的。这样的输入明确地描述了视频帧之间的运动，这使得识别更容易，因为网络不需要隐含地估计运动。我们考虑基于光流的输入的几种变化，我们在下面描述。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习

相关文章推荐

新的分享

章节导航