您的位置：首页 > 其它

Discriminative Action States Discovery for Online Action Recognition (动作识别 3)

2016-09-09 08:28 323 查看

原文链接需要购买IEEE数据库

近期，人体动作识别问题取得了很大的进展。然而大部分工作是离线识别。不同于离线动作识别，在线识别是指，视频还在播放时，就要给出识别结果。在线识别技术对于实时应用很必需，在视频结束之间，就要完成识别任务。

【好嘛，把动作识别分个类，离线和在线。我的问题，其实说到底，是在线识别问题。】

离线动作识别问题已经有很好的解决办法了。

[4]用图模型的方法，把局部特征分成时间-空间聚类。

[5]用时间-空间树在更高层次表达视屏中动作的外形和运动。

[12]用局部特征的协方差矩阵来表达视频。

[9]学习了运动的演变方向，用优化的演变参数表达视频。

[8]用HMM来编码运动信息。

随着深度学习的发展，很多基于CNN的方法也涌现出来。

[14]用two stream CNN来描述运动。

[15]提出一个新的视频描述方式，充分利用手工特征和深度特征。

【综述这样写，的确很爽，给人一种看了很多论文的感觉。一句话一篇文章的方法。你要学会自己用一句话来概括一篇文章的方法。】

虽然上述的方法很成功，然而把这些离线的方法直接用于在线，效果并不好。在在线动作识别问题中，视频是用一系列帧级特征表示的，一个特征向量表示一帧图片后者视频中一段时间的几帧。由于动作的外形和运动躲在变化，用于表示同一类的描述子可能是不同的分布。例如，图1中的跳高这个动作，就分为“跑”和“跳”两个步骤。帧级描述子，分别独立地描述了这两个状态，在表述空间具有不同的分布。所以对于在线识别问题，样本的类别内的变化要比离线识别问题更大。另外，帧级描述子相比于视频级描述子，包含更多的噪声，因为当使用像bag-of-words或者Fisher vector等编码方式对局部特征进行编码时，局部特征总是不够充分的。所以就很难找到合适的决策面来进行动作识别。

【这里提出了特征的一种划分：帧级特征和视频级特征。划分的依据是，一个特征描述的对象有多大的范围。这里的特征，指的是特征空间中的一个点。这里提到了两种编码方式：bag-of-words和Fisher vector。我发现，在原本的三步走里面，还多一步，从原始数据（图片，视频…）,抽象一层表述方式，比如昨天看的MHI，然后是编码方式，有各种奇奇怪怪的特征（矩，HoG啥之类的），还有各种编码方式（词袋，fisher向量，稀疏编码），最后就是分类器。】

针对上述提出的问题，很多人也做了一些尝试。[21]用基于3D动作姿态来表达动作。[23]提出一种orderlet的方式表达动作。这些方法依赖深度图像和骨架信息。[18]设计了一种考虑时间域信息的概率模型，匹配不同的时间子区间。[20]提出一种基于random projection trees的propagative hough voting方法来匹配各个独立的特征。[24]用低维局部特征的协方差描述子来表示帧级特征，并设计了一种增量方法进行在想处理。然后在这些方法里面，都需要轮廓信息或者bounding boxes。

【这里的描述，其实并没有说多少那些方法的劣势，最多只是说他们用了什么方法，使用了什么手段。这些东西并不能成为一个方法比另一个方法差的原因，因为任何方法都需要依赖外部输入。】

根据以上的观察，我们提出一种动作状态发现方法，来给正样本分配不同状态，并学习每个状态的决策边界。在我们的模型中，一个动作，包含K个不同的状态。以跳高为例，目的是在样本空间中找到跑和跳两个动作模式，并且最大化正样本和负样本的距离…

【这篇文章处理的问题，本质上，是对于按照时间分布的数据，其类内方差比较大，而且大的原因是因为存在stage，所以提出一种方法来处理这种数据问题。也就是做分类是，当类内方差比较大时，我先对类内进行学习，得到一个中间步骤，再根据这些中间步骤决定最后的类别。】

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航