您的位置：首页 > 其它

飞桨PaddlePaddle论文复现营论文学习心得

2020-08-05 22:20 260 查看

【飞桨PaddlePaddle论文复现营】【论文心得】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

论文解读
正文
网络结构
训练细节
训练结果
总结
链接

论文解读

这篇论文是ICCV 2017上的workshop，主要提出了一种3D结构的ResNet网络用于视频分类任务，并且公布了Github源码，对于我这种初学小白可以说非常友好，推荐大家读完论文可以跑跑代码，加深理解。下面简单解读论文的主要内容：

正文

视频分类任务区别于一般的图像分类，视频数据在时空维度也具有一定的特征，传统的图像二维卷积只能提取单帧图像的特征，虽然结合双流CNN的思路可以进行一般的视屏动作特征提取，但是未能很好的提取视频中时空维度的特征信息，本文作者提出一种具有时空3D内核(3D CNN)的卷积神经网络，用于相对较深的神经网络结构——ResNet，可以直接从视频中提取时空特征，进行动作识别的能力。尽管模型的参数数量很大，但它比相对较浅的网络(如C3D)获得了更好的性能。

网络结构

在本文中，作者将在图像识别中优于初始结构的ResNet体系结构引入到3D CNN中，其结构如下图：

3D ResNet网络和原始ResNet网络的区别是卷积核和池化层的维数。 3D ResNet通过3D卷积层和3D池化层进行时空维度的特征提取。卷积核的尺寸为3×3×3，卷积核conv1的时间步长为1，类似于C3D结构。网络使用16帧RGB剪辑作为输入。所以输入的图像大小为3 ×16×112×112。输入的下采样由conv3_1、conv4_1、conv5_1执行，当特征映射的数量增加时步长取2，作者采用零填充的identity shortcuts来减少参数量的增加。

训练细节

代码中作者使用具有动量的随机梯度下降(SGD)来训练网络。首先从训练数据中的视频中通过数据增强随机生成训练样本。再通过均匀采样来选择每个样本的时间位置，在选定的时间位置周围生成16个帧剪辑。如果视频短于16帧，则循环视频。然后我们从4个边角或1个中心随机选择空间位置，除了位置，每个样本还选择不同的空间尺度来执行多长宽比的裁剪。生成的样本以50%的概率水平翻转。我们还对每个样本执行平均减法。所有生成的样本都有与其原始视频相同的类标签。
数据集为 Kinetics和ActivityNet动力学数据集，在4个GPU(NVIDIA TITAN X)上使用批次大小为256的SGD进行训练。权重衰减为0.001，动量为0.9，初始学习率为0.1，当验证集损失值饱和是除以10^3，在ActivityNet数据集的初步实验中，大的学习速率和批处理大小对于获得良好的识别性能至关重要。数据集根据50%，25%，25%的比例划分为训练集，验证集和测试集。

训练结果

在动力学数据集Kinetics上的准确性。 Average超过TOP-1和TOP-5的精度。 *表示该方法在Sports-1M数据集上进行预训练。论文提出的三维ResNet获得了比C3D更高的精度。

总结

这篇论文的思路还是比较容易理解的，将3D CNN的思想迁移到ResNet上，并通过一些操作减少了复杂网络下的参数量，同时整个训练过程的细节介绍的非常详细，并且开源了代码，适合初学者学习。大家也可以上百度AI Studio获取GPU算力进行练习哦。

链接

百度飞桨论文复现课程连接
 论文下载链接
 Github链接

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航