您的位置：首页 > 大数据 > 人工智能

[深度学习论文笔记][PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification wit

2017-09-07 14:44 549 查看

[PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs

Zifeng Wu, Yongzhen Huang, Liang Wang, Xiaogang Wang, and Tieniu Tan

from CAS-IA and CUHK

paper link

这篇文章是第一篇将深度学习引入步态识别任务的工作。文章的重点是在CASIA-B数据库上针对多视角和多行走状态的问题进行研究。模型在CASIA-B、OU-IRIS以及USF数据库上都有很好的性能表现。

Network Framework

LB, MT and GT

该工作使用的网络均是2输入网络：输入prob和gallery的GEI，输出两者是否来自于同一个体。本质上网络涉及到“特征提取”和“特征比较”两个过程。根据这两个过程的程度的不同，作者提出了三种不同的二输入网络。从左至右依次称为LB、MT、GT:

其中，LB的含义是’Matching Local Features at the Bottom Layer’，即先对输入的GEI作比较，网络结果均属于比较器。MT的意思是’Matching Mid-Level Features at the Top Layer’，即网络对各个输入进行了一定的特征提取后进行比较。GT在MT的基础上更进一步，’Matching Global Features at the Top Layer’意味着网络的大部分都用来提取特征。

在这三个结构中GT的参数量最大，但是实际使用的时候最省时间，因为gallery的特征可以提前计算好存储下来。

Two Stream Network

如果想使用GEI之外的特征，如CGI，可以使用该网络：

该网络是两个LB的集合。

3D CNN

GEI是视频各帧silhouette的平均。如果想更好地利用各帧silhouette，作者提出了使用3D卷积，将各silhouette作为子LB网络的输入，非常类似于视频处理中的常见CNN结构：

作者最终使用了这些网络的集合(Ensemble)，达到了最好的识别准确率。

Experiment

作者首先在CASIA-B库上做了详细的实验。实验具体结果可以参见论文实验部分。总结起来，实验结论大致有以下几点：

1. 与传统方法，如ViDP相比，本文提出的模型性能有明显优势；

2. 现有数据库的规模仍难以支撑训练稍复杂的深度网络，GT网络的训练出现了严重的过拟合现象。因此实验部分作者以分析LB和MT为主；

3. 有些角度包含教少的步态信息，如0°，18°，162°，180°等。以这些角度作为probe的实验结果相对较差；

4. 行走状态（CL和BG）对识别结果影响较大；

5. GEI本身的噪声对网络的识别结果影响不大。

此外在OU-IRIS和USF数据库中，本文提出的模型也有很好的效果。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航