您的位置:首页 > 其它

Large-scale Video Classification with Convolutional Neural Networks

2017-06-06 10:07 543 查看

1. Introduction

       图像和视频在互联网上变得无所不在,这鼓励了开发可以分析其语义内容的不同应用程序的算法,包括搜索和摘要。近来,卷积神经网络(CNN)[15]已经被证明是一种有效的模型,用于理解图像内容,为图像识别,分割,检测和检索提供了最先进的结果[11,3,2, 20,9,18]。这些结果背后的关键因素是将网络扩展到数千万个参数和可以支持学习过程的大量标签数据集的技术。在这些条件下,CNN已被证明学习有力而可解释的图像特征[28]。在图像领域的积极成果的鼓舞下,我们研究了大规模视频分类中CNN的性能,网络具有不仅处理存在于单个静态图像中的外观信息,而且其复杂的时间演变。在这种情况下扩展和应用CNN有几个挑战。

       从实际的角度来看,目前没有匹配现有图像数据集的规模和多样性的视频分类基准,因为视频显然难以收集,注释和存储。为了获得足够的数据来训练我们的CNN架构,我们收集了一个新的Sports-1M数据集,其中包含一百五十万个YouTube视频,分类为487个运动类别。我们让Sport一1M可用于研究界,以支持今后在这方面的工作。

       从建模的角度来看,我们有兴趣回答以下问题:CNN架构中的什么时间连接模式最适合利用视频中存在的局部运动信息?附加运动信息如何影响CNN的预测,以及整体性能提高多少?我们通过评估多个CNN架构来经验地检查这些问题,每个CNN架构采用不同的方法来整合整个时间域的信息。

       从计算角度来说,CNN需要大量的训练时间来有效地优化参数化模型的数百万个参数。由于网络必须一次处理不是一个图像而是处理多个视频帧,所以在及时扩展架构的连接性时,会更加复杂。为了减轻这个问题,我们表明,加速CNN的运行性能的有效方法是修改架构以包含两个单独的处理流:在低分辨率帧学习特征的context流,和仅在帧的中间部分操作的高分辨率fovea流。由于输入的维度降低,我们观察到网络的运行性能增加了2-4倍,同时保持分类精度。

       最后,出现的一个自然而然的问题是,在Sport-1M数据集上学习的特征是否足够通用泛化到一个不同的较小的数据集。我们经验性地调查迁移学习问题,在UCF-101上取得显着性能(65.4%,高于41.3%),通过重新使用Sports-1M数据集上学习的低级功能,而不是在UCF-101上从头训练整个网络。此外,由于UCF-101中只有一些类与体育有关,所以我们可以量化两种设置中迁移学习的相对改进。

     我们的贡献可以总结如下:

•我们提供了多种方法的广泛实验性评估,以将CNN扩展到大型数据集上的视频分类,其中包含487个类别的100万视频(我们以Sports-1M数据集的形式发布),并比强大的基于特征的baseline报告显着的性能提升。

•我们突出强调以两种空间分辨率(低分辨率context流和高分辨率fovea流)处理输入的架构,作为一种有前途的方式,可以在无任何损失精度下改进CNN的运行性能。

•我们将网络应用到UCF-101数据集,并报告了比基于特征的最新技术结果和训练建立的baseline的重大改进在UCF-101。

2.Related Work

       视频分类的标准方法[26,16,21,17]涉及三个主要阶段:首先,描述视频区域的局部视觉特征被密集地提取[25]或者在一组稀疏的兴趣点[12, 8]。接下来,将特征组合成固定大小的视频级描述。一种流行的方法是使用学习的k-means词典量化所有特征,并将视频的视觉词汇集在直方图中变化的时空位置和范围[13]。最后,分类器(如SVM)在所得到的“bag-of-words”表示上进行了训练,以区分感兴趣的视觉类别。
       卷积神经网络[15]是一个类生物学的深度学习模型,用一个单一的神经网络来代替所有的三个阶段,从原始像素到分类器输出端到端的训练。图像的空间结构被明确地利用于通过层之间的受限连接(局部滤波器),参数共享(卷积)和特殊的局部不变性建立神经元(最大池化)。因此,这些架构有效地将所需的工程从特征设计和累积策略转移到网络连接结构和超参数选择的设计。由于计算限制,CNN直到最近才应用于相对较小规模的图像识别问题(在MNIST,CIFAR-10/100,NORB和Caltech-101/256等数据集上),但GPU硬件的改进使CNN的规模达到数百万个参数的网络,这又导致在图像分类[11],对象检测[20,9],场景标记[3],室内分割[4]和房屋数字分类[19]
。另外,通过ImageNet [7]训练的大型网络学习的特征已被证明可以在使用SVM分类的情况下,在许多标准图像识别数据集中产生最先进的性能,即使没有微调[18]。

        与图像数据领域相比,将CNN应用于视频分类的工作相对较少。由于CNN在图像领域中的所有成功应用共享了大型训练集,我们推测这部分归因于缺乏大型视频分类基准。特别是常用的数据集(KTH,Weizmann,UCF
Sports,IXMAS,Hollywood 2,UCF-50)只包含几千个剪辑和多达几十个类。即使是最大的可用数据集,如CCV(9,317个视频和20个类)和最近推出的UCF-101 [22](13,320个视频和101个类)在可用的图像数据集中的数量和种类数量仍然缺乏[7]。尽管有这些限制,已经探讨了一些CNN扩展到视频领域。 [1]和[10]通过将空间和时间作为输入的等效维度将图像CNN扩展到视频领域,并在时间和空间上执行卷积。我们认为这些扩展只是这项工作中可能的概括之一。用于训练时空特征的无监督学习方案也被提出来,基于卷积门限制玻尔兹曼机[23]和独立子空间分析[14]。相比之下,我们的模型是经过端到端的完全监督的训练。

3. Models

      与可以裁剪和缩放到固定大小的图像不同,视频在时间上有很大差异,不能用固定大小的架构轻松处理。 在

本文中我们将每个视频视为一袋短的、固定尺寸的短片。 由于每个剪辑在时间上包含几个连续的帧,我们可以在时间维度上扩展网络的连接,以学习时空特征。 有关扩展连接的精确细节有多个选项,我们将在下面描述三种广泛的连接模式类别(早期融合,后期融合和慢速融合)。之后,我们描述了一种用于解决计算效率的多分辨率架构。

3.1. Time Information Fusion in CNNs

        我们研究了在时域融合信息的几种方法(图1):可以通过修改第一层卷积滤波器扩展到时间域,进行网络中的融合,或者可以通过放置两个单独的单帧网络来完成融合,相隔一段时间距离,稍后在处理中融合其输出。

我们首先描述baseline单帧CNN,然后根据不同的融合类型讨论其在时间维度上的扩展。



Single-frame。

我们使用单帧baseline架构来了解静态外观对分类精度的贡献。该网络类似于ImageNet挑战获胜模型[11],但是接受大小为170×170×3像素的输入,而不是原始的224×224×3。使用速记符号,完整的架构是C(96,11,3 )-NPC(256,5,1)-NPC(384,3,1)-C(384,3,1)-C(256,3,1)-PF C(4096)-FC(4096),其中C(d,f,s)表示具有空间尺寸f×f的d个滤波器的卷积层,以步长s施加到输入。
F C(n)是具有n个节点的完全连接层。所有池化层P在非重叠的2×2区域空间上池化,并且所有归一化层N如Krizhevsky等人所述[11],并使用相同的参数:k = 2,n = 5,α= 10-4,β= 0.5。最后一层连接到具有密集连接的softmax分类器。

Early fusion:

       Early fusion扩展在像素级别上整合了整个时间窗口中的信息。这是通过修改单帧模型中的第一卷积层的过滤器来实现的,通过将扩展为大小为11×11×3×T像素,其中T是一些时间范围(我们使用T = 10或约三分之一秒)。与像素数据的早期直接连接允许网络精确地检测局部运动方向和速度。

Late Fusion

       Late Fusion模型放置两个单独的单帧网络(如上所述,直到最后一个卷积层C(256,3,1))具有15帧间隔的共享参数,然后在第一个完全连接层中合并两个流。因此,单独的单帧塔架都不能检测到任何动作,而是第一个完成连接层可以通过比较两个塔的输出来计算全局运动特性。

Slow Fusion

       Slow fusion模型是在整个网络中缓慢融合时间信息的两种方法之间的平衡混合,使得更高层在空间和时间维度上逐渐获得更多的全局信息。这通过在时间上扩展所有卷积层的连接性并且除了空间卷积之外还执行时间卷积来计算激活来实现,如[1,10]所示。在我们使用的模型中,第一个卷积层是扩展为通过与步幅2的有效卷积将时间范围T = 4的每个滤波器应用于10帧的输入剪辑,并且在时间上产生4个响应。第二和第三层用时间范围T = 2和步幅2的滤波器迭代该过程。因此,第三卷积层可以访问所有10个输入帧的信息。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  深度学习
相关文章推荐