您的位置：首页 > 其它

CVPR 2016｜商汤科技论文解析：行为识别与定位

2016-09-25 20:36 351 查看

论文：A Key Volume Mining Deep Framework for Action
Recognition

论文作者：Wangjiang Zhu, Jie Hu, Gang Sun, Xudong Cao, Yu Qiao

Tsinghua University（清华大学），Shenzhen Institutes
of Advanced Technology, CAS, China（中国科学院深圳先进技术研究院）、SenseTime Group Limited（商汤科技）

本文作者：朱望江

CVPR：IEEE Conference on Computer Vision and
Pattern Recognition，即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议，在中国计算机学会推荐国际学术会议的排名中，CVPR 为人工智能领域的 A 类会议。

商汤科技会在 CVPR 2016 上提交多篇论文，商汤科技的技术专家将在机器之心发布系列文章，对论文进行解读。本文为此系列文章的第二篇，点击「CVPR
2016｜商汤科技论文解析：人脸检测中级联卷积神经网络的联合训练」查看第一篇论文解析。

在智能手机普及度极高、网络带宽不断提升的条件下，人们拍摄视频的需求越来越多。如何像处理文字那样高效地理解、归类、检索视频变得越来越重要。而视频理解的一个重要课题就是识别视频中人的动作或者行为（Action Recognition）。

Action Recognition 是计算机视觉中比较难的一个问题。因为：

不同人完成同一种动作的方式有很大差异。比如同样是挥手，有些人举得很高幅度很大，有些人动作很矜持；

同一种动作往往会有很多亚类。收集数据时候，很难为每一个亚类都收集足够的训练样本。比如拳击就可以包括上勾拳，平勾拳，斜勾拳等众多亚类。

数据很难收集。这是因为视频的精细标注（标注每个动作发生的时空位置）工作量远大于图像标注，目前学术界研究 Action Recognition 的数据集要么太小，要么标注太粗糙，甚至完全是基于文本关键词自动归类的，而没有人工的检验。

灵感来源

目前 Action Recognition 比较好的做法是 two-stream 的思路。即对 RGB image 和 optical flow （光流）分别训练分类模型，在测试阶段两个 stream 的预测结果取平均。

我们发现即便是 trimmed video （例如 UCF101 数据集），实际的动作发生的时空位置也是非常不确定的：我们既不知道做动作的人在什么空间位置，也不知道真正的动作发生的精确时间位置。更糟糕的是，和动作类别直接相关的，具有区分性的（discriminative）key volume 往往占比非常小，这在 flow stream 上表现得尤为突出。

于是我们就想能否先把这些 key volume 找出来，直接用以训练分类器，这样可以免受噪声数据的干扰，更加聚焦在动作本质上。但实际上，在得到一个好的分类器之前我们是很难自动地将 key volume 挑出来的。于是我们陷入了一个鸡生蛋，蛋生鸡的困境。

借鉴 Multiple Instance Learning 的思想，我们把鸡和蛋的问题放在一起来优化解决：在训练分类器的同时，挑选 key volume；并用挑出来的 key volume 更新分类器的参数。这两个过程无缝地融合到了 CNN （卷积神经网络）的网络训练的 forward 和 backward 过程中，使得整个训练过程非常优雅、高效。

实验发现，key volume 基本上就对应于动作时间发生的时空区间。这意味着我们不仅能对动作进行分类，还能粗略地在视频中找到动作发生的实际时空位置。

算法概要

不同于以往的神经网络训练，我们从一段视频中截取了多个 3D volumes 作为神经网络的输入。经过 CNN 之后，每个 volume 会得到一个预测向量，表示该 volume 属于每一个动作类别的概率。

借鉴 Multiple Instance Learning 的思想，网络的 loss function 要求第 i 类视频中的所有volume在非 i 类的分类器上的响应较小；同时鼓励第i类视频中至少有一个 volume 在第 i 类的分类器上响应较高。

当网络训练到一定的程度之后，神经网络训练的 Forward 阶段对每个 volume 的打分可以用来挑选 key volume；这些 key volume 会在 Backward 阶段影响到神经网络参数的调整。使用 key volume 来更新网络参数避免了随机 volume 引入的噪声，从而得到更好地网络参数。

除了网络设计上的贡献，1）该文章还提出了 Stochastic out 用来鼓励选取多模态的 key volume，而不是很快收敛到一个 dominant 模态。2）该文章使用 key volume proposal（类似于图像中的object proposal）来缩小 key volume 的搜索范围。

基于该方法，我们将 UCF101 数据集的分类正确率做到了 93.1%，据我们所知，这是目前学术界最高性能。

下图给出了 key volume 分布的热度图，可以发现，key volume 基本上对应于实际动作发生的时空位置。

工业界的应用

Action Recognition 在监控中可以用来实时监控甚至预测一些诸如打架头殴、恐怖袭击等危险行为。还可以对海量的监控视频进行分类检索，可以省去很大一部分人力，快速定位到事件发生的时间点。

Action Recognition 对人机交互也很有意义。目前 Kinect 摄像头需要用比较昂贵的深度摄像头来分析人的体态和行为，基于 RGB 视频的 Action Recognition 可以使用廉价的硬件来构建解决方案。

个人简介：

朱望江，现任商汤科技见习研发工程师。清华-MSRA（微软亚洲研究院）联合培养五年级博士生。读博期间发表
CVPR论文两篇，ECCV论文一篇。研究领域：Action Recognition, Salient Object Detection。

论文：笔记本D盘最新行为识别论文集合A
Key Volume Mining Deep Framework for Action Recognition

投诉

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习行为识别

相关文章推荐

新的分享

章节导航