您的位置:首页 > 其它

飞桨PaddlePaddle论文复现营论文学习心得

2020-08-05 22:20 260 查看

【飞桨PaddlePaddle论文复现营】【论文心得】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

论文解读

这篇论文是ICCV 2017上的workshop,主要提出了一种3D结构的ResNet网络用于视频分类任务,并且公布了Github源码,对于我这种初学小白可以说非常友好,推荐大家读完论文可以跑跑代码,加深理解。下面简单解读论文的主要内容:

正文

视频分类任务区别于一般的图像分类,视频数据在时空维度也具有一定的特征,传统的图像二维卷积只能提取单帧图像的特征,虽然结合双流CNN的思路可以进行一般的视屏动作特征提取,但是未能很好的提取视频中时空维度的特征信息,本文作者提出一种具有时空3D内核(3D CNN)的卷积神经网络,用于相对较深的神经网络结构——ResNet,可以直接从视频中提取时空特征,进行动作识别的能力。尽管模型的参数数量很大,但它比相对较浅的网络(如C3D)获得了更好的性能。

网络结构

在本文中,作者将在图像识别中优于初始结构的ResNet体系结构引入到3D CNN中,其结构如下图:

3D ResNet网络和原始ResNet网络的区别是卷积核和池化层的维数。 3D ResNet通过3D卷积层和3D池化层进行时空维度的特征提取。 卷积核的尺寸为3×3×3,卷积核conv1的时间步长为1,类似于C3D结构。 网络使用16帧RGB剪辑作为输入。 所以输入的图像大小为3 ×16×112×112。输入的下采样由conv3_1、conv4_1、conv5_1执行,当特征映射的数量增加时步长取2,作者采用零填充的identity shortcuts来减少参数量的增加。

训练细节

代码中作者使用具有动量的随机梯度下降(SGD)来训练网络。 首先从训练数据中的视频中通过数据增强随机生成训练样本。 再通过均匀采样来选择每个样本的时间位置,在选定的时间位置周围生成16个帧剪辑。 如果视频短于16帧,则循环视频。 然后我们从4个边角或1个中心随机选择空间位置,除了位置,每个样本还选择不同的空间尺度来执行多长宽比的裁剪。 生成的样本以50%的概率水平翻转。 我们还对每个样本执行平均减法。 所有生成的样本都有与其原始视频相同的类标签。
数据集为 Kinetics和ActivityNet动力学数据集,在4个GPU(NVIDIA TITAN X)上使用批次大小为256的SGD进行训练。权重衰减为0.001,动量为0.9,初始学习率为0.1,当验证集损失值饱和是除以10^3, 在ActivityNet数据集的初步实验中,大的学习速率和批处理大小对于获得良好的识别性能至关重要。数据集根据50%,25%,25%的比例划分为训练集,验证集和测试集。

训练结果

在动力学数据集Kinetics上的准确性。 Average超过TOP-1和TOP-5的精度。 *表示该方法在Sports-1M数据集上进行预训练。 论文提出的三维ResNet获得了比C3D更高的精度。

总结

这篇论文的思路还是比较容易理解的,将3D CNN的思想迁移到ResNet上,并通过一些操作减少了复杂网络下的参数量,同时整个训练过程的细节介绍的非常详细,并且开源了代码,适合初学者学习。大家也可以上百度AI Studio获取GPU算力进行练习哦。

链接

百度飞桨论文复现课程连接
论文下载链接
Github链接

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: