结合目标检测与多3DCNN的行为识别
2018-01-08 13:43
706 查看
主要思路:利用SSD目标检测检测人体,并将人体图抠出来,然后对原始帧和人体crop图像分别训练一个3DCNN,然后把这两个3DCNN作为特征提取器,分别提取原始帧和crop帧的特征,接着将特征进行融合,最后用SVM进行分类。
代码地址:Multi-3DCNN-for-action-recognition
主要流程如下图所示:
使用的是kth数据集,这个程序目前只能用于kth数据集,因为kth数据集每个视频中只有一个人。
训练3DCNN的时候,数据集的划分如下:
每个动作是由25个人完成,与一般论文中对kth的处理一致,前16个人作为训练,后9个人作为测试。
提取特征进行svm分类时,训练集与测试集也是前16个人作为训练,后9个人作为测试。
从每个训练集中的视频随机取出四段连续的16帧视频作为训练样本,从每个测试集中的视频随机取出一段连续的16帧视频帧作为测试样本。
因此总训练样本数为 16x4x4x6 = 1536,测试样本为:9x4x1x6-1=215
具体细节可看代码中load_dataset.py
结果:
只使用原始视频帧的特征(总正确率:81.40%)
只使用crop视频帧的特征(总正确率:79.07%)
使用融合特征(总正确率:87.44%)
从结果来看,这么做还是有一点提升的,不过kth数据集本身比较简单,而且这个程序限制比较多,只能用于视频中只有一个人的情况。
文中有些表述可能不太好,见谅,也欢迎大家提出意见。
代码地址:Multi-3DCNN-for-action-recognition
主要流程如下图所示:
使用的是kth数据集,这个程序目前只能用于kth数据集,因为kth数据集每个视频中只有一个人。
训练3DCNN的时候,数据集的划分如下:
每个动作是由25个人完成,与一般论文中对kth的处理一致,前16个人作为训练,后9个人作为测试。
提取特征进行svm分类时,训练集与测试集也是前16个人作为训练,后9个人作为测试。
从每个训练集中的视频随机取出四段连续的16帧视频作为训练样本,从每个测试集中的视频随机取出一段连续的16帧视频帧作为测试样本。
因此总训练样本数为 16x4x4x6 = 1536,测试样本为:9x4x1x6-1=215
具体细节可看代码中load_dataset.py
结果:
只使用原始视频帧的特征(总正确率:81.40%)
只使用crop视频帧的特征(总正确率:79.07%)
使用融合特征(总正确率:87.44%)
从结果来看,这么做还是有一点提升的,不过kth数据集本身比较简单,而且这个程序限制比较多,只能用于视频中只有一个人的情况。
文中有些表述可能不太好,见谅,也欢迎大家提出意见。
相关文章推荐
- 目标检测R-CNN
- R-CNN目标检测第三弹(Faster R-CNN)
- 【神经网络与深度学习】【计算机视觉】RCNN- 将CNN引入目标检测的开山之作
- 目标检测——从RCNN到Faster RCNN 串烧
- CNN系列之目标检测方法【1】
- 目标检测方法系列——R-CNN, SPP, Fast R-CNN, Faster R-CNN, YOLO, SSD
- faster rcnn进行目标检测
- SqueezeNet运用到Faster RCNN进行目标检测
- 小目标检测--A closer look: Small object detection in Faster R-CNN
- 【目标检测】Object Detection Fast RCNN 算法解析
- 多视图3D目标检测学习笔记
- 【R-CNN系列目标检测】(1)R-CNN算法
- cs231n学习笔记-CNN-目标检测、定位、分割
- 目标检测4 - Faster RCNN
- cs231n学习笔记-CNN-目标检测、定位、分割
- 目标检测:Faster R-CNN
- 目标检测4 Faster R-CNN
- 目标检测之RCNN,fast RCNN,faster RCNN
- 【深度学习:目标检测】 Face Detection with the Faster R-CNN(数据集标注对比研究报告 )
- 目标检测——从RCNN到Faster RCNN 串烧