您的位置：首页 > 其它

Two-Stream Convolutional Networks for Action Recognition in Video

2015-09-06 15:21 309 查看

Two-Stream Convolutional Networks for Action Recognition in Video

我们提出了一种有区分训练的卷积网络来识别视频中的动作。挑战是从视频帧中获取外观和运动的互补的信息。我们的三个贡献：第一，提出了时间和空间分离的两路卷积网络结构。第二，证明了在多帧密集光流上训练，能够实现很好的性能。第三，多任务学习，应用在两个不同的动作分类数据集上，能够增加训练的数据量，提高性能。

视频能够被分为时间和空间两部分。在空间部分，每一帧的表现形式，携带有场景和目标等信息。在时间部分，在帧与帧之间存在运动信息，包含目标物体和相机的运动信息。每一流用一个深度卷积网络来实现，每一流的softmax分数在最后进行融合。我们考虑了两种融合的方法：求平均值和在一个叠放的L2正则化的softmax得分上训练一个多类的线性SVM。

光流卷积网络：我们模型的输入是几个相邻帧的堆叠的光流位移。这些输入能够描述出视频帧的运动信息。

光流堆叠：一个密集的光流能够被看做是一系列连续帧的位移向量。水平和垂直两部分分开。为了表示一个序列帧的运动信息，我们堆叠L个连续帧的流通道来形成一个总数为2L个输入通道。

轨迹堆叠：另一个可供选择的运动表示，受到基于轨迹描述子的启发，取代光流，在连续几帧相同的位置上采样，根据光流，得到轨迹的运动信息。

双向光流：

减去平均光流：

时间域卷积网络结构与先前的表示的关系：在本文中，运动信息通过用光流位移来准确的表示。

多任务学习：因为视频训练的数据集相对较小，容易产生过拟合，为了避免这种情况的发生，我们合并多个数据集。

实现细节：卷积网络的配置，所有的隐含层用ReLU激活函数；max pooling的大小为3*3，步长为2；时间网络和空间网络位移的不同就是，我们删除了时间网络第二层的正则化来减少内存消耗。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航