Two-Stream Convolutional Networks for Action Recognition in Video
2015-09-06 15:21
309 查看
Two-Stream Convolutional Networks for Action Recognition in Video
我们提出了一种有区分训练的卷积网络来识别视频中的动作。挑战是从视频帧中获取外观和运动的互补的信息。我们的三个贡献:第一,提出了时间和空间分离的两路卷积网络结构。第二,证明了在多帧密集光流上训练,能够实现很好的性能。第三,多任务学习,应用在两个不同的动作分类数据集上,能够增加训练的数据量,提高性能。视频能够被分为时间和空间两部分。在空间部分,每一帧的表现形式,携带有场景和目标等信息。在时间部分,在帧与帧之间存在运动信息,包含目标物体和相机的运动信息。每一流用一个深度卷积网络来实现,每一流的softmax分数在最后进行融合。我们考虑了两种融合的方法:求平均值和在一个叠放的L2正则化的softmax得分上训练一个多类的线性SVM。
光流卷积网络:我们模型的输入是几个相邻帧的堆叠的光流位移。这些输入能够描述出视频帧的运动信息。
光流堆叠:一个密集的光流能够被看做是一系列连续帧的位移向量。水平和垂直两部分分开。为了表示一个序列帧的运动信息,我们堆叠L个连续帧的流通道来形成一个总数为2L个输入通道。
轨迹堆叠:另一个可供选择的运动表示,受到基于轨迹描述子的启发,取代光流,在连续几帧相同的位置上采样,根据光流,得到轨迹的运动信息。
双向光流:
减去平均光流:
时间域卷积网络结构与先前的表示的关系:在本文中,运动信息通过用光流位移来准确的表示。
多任务学习:因为视频训练的数据集相对较小,容易产生过拟合,为了避免这种情况的发生,我们合并多个数据集。
实现细节:卷积网络的配置,所有的隐含层用ReLU激活函数;max pooling的大小为3*3,步长为2;时间网络和空间网络位移的不同就是,我们删除了时间网络第二层的正则化来减少内存消耗。
相关文章推荐
- DVB-AD 注册
- 迪米特法则
- php——{}的运用
- winform自定义按钮菜单
- Arduino 控制超声波测距模块
- golang debug with LiteIDE
- Android用AccessibilityService 辅助服务实现微信抢红包APP
- uva 11021 Tribbles 概率计算
- iOS开发UI -- UIAlertController(提示框)
- 在eclipse中将android项目生成apk并且给apk签名
- 信号处理一些知识
- android学习笔记(17)广播事件处理进阶(注册方法)
- 引用别人的项目cannot change version
- iOS开发 - 内存动态分析
- C-7 运动员和教练案例
- Android用AccessibilityService 辅助服务实现微信抢红包APP
- 设计模式之工厂方法模式
- 源码编译安装mysql5.6报错及解决方法
- Android开发中如何结束所有的activity
- 关于免费解决RedHat6.5的:This system is not registered to Red Hat Subscription Managemen