您的位置:首页 > 其它

Discriminative Action States Discovery for Online Action Recognition (动作识别 3)

2016-09-09 08:28 323 查看
原文链接 需要购买IEEE数据库

近期,人体动作识别问题取得了很大的进展。然而大部分工作是离线识别。不同于离线动作识别,在线识别是指,视频还在播放时,就要给出识别结果。在线识别技术对于实时应用很必需,在视频结束之间,就要完成识别任务。

【好嘛,把动作识别分个类,离线和在线。我的问题,其实说到底,是在线识别问题。】

离线动作识别问题已经有很好的解决办法了。

[4]用图模型的方法,把局部特征分成时间-空间聚类。

[5]用时间-空间树在更高层次表达视屏中动作的外形和运动。

[12]用局部特征的协方差矩阵来表达视频。

[9]学习了运动的演变方向,用优化的演变参数表达视频。

[8]用HMM来编码运动信息。

随着深度学习的发展,很多基于CNN的方法也涌现出来。

[14]用two stream CNN来描述运动。

[15]提出一个新的视频描述方式,充分利用手工特征和深度特征。

【综述这样写,的确很爽,给人一种看了很多论文的感觉。一句话一篇文章的方法。你要学会自己用一句话来概括一篇文章的方法。】

虽然上述的方法很成功,然而把这些离线的方法直接用于在线,效果并不好。在在线动作识别问题中,视频是用一系列帧级特征表示的,一个特征向量表示一帧图片后者视频中一段时间的几帧。由于动作的外形和运动躲在变化,用于表示同一类的描述子可能是不同的分布。例如,图1中的跳高这个动作,就分为“跑”和“跳”两个步骤。帧级描述子,分别独立地描述了这两个状态,在表述空间具有不同的分布。所以对于在线识别问题,样本的类别内的变化要比离线识别问题更大。另外,帧级描述子相比于视频级描述子,包含更多的噪声,因为当使用像bag-of-words或者Fisher vector等编码方式对局部特征进行编码时,局部特征总是不够充分的。所以就很难找到合适的决策面来进行动作识别。

【这里提出了特征的一种划分:帧级特征和视频级特征。划分的依据是,一个特征描述的对象有多大的范围。这里的特征,指的是特征空间中的一个点。这里提到了两种编码方式:bag-of-words和Fisher vector。我发现,在原本的三步走里面,还多一步,从原始数据(图片,视频…),抽象一层表述方式,比如昨天看的MHI,然后是编码方式,有各种奇奇怪怪的特征(矩,HoG啥之类的),还有各种编码方式(词袋,fisher向量,稀疏编码),最后就是分类器。】

针对上述提出的问题,很多人也做了一些尝试。[21]用基于3D动作姿态来表达动作。[23]提出一种orderlet的方式表达动作。这些方法依赖深度图像和骨架信息。[18]设计了一种考虑时间域信息的概率模型,匹配不同的时间子区间。[20]提出一种基于random projection trees的propagative hough voting方法来匹配各个独立的特征。[24]用低维局部特征的协方差描述子来表示帧级特征,并设计了一种增量方法进行在想处理。然后在这些方法里面,都需要轮廓信息或者bounding boxes。

【这里的描述,其实并没有说多少那些方法的劣势,最多只是说他们用了什么方法,使用了什么手段。这些东西并不能成为一个方法比另一个方法差的原因,因为任何方法都需要依赖外部输入。】

根据以上的观察,我们提出一种动作状态发现方法,来给正样本分配不同状态,并学习每个状态的决策边界。在我们的模型中,一个动作,包含K个不同的状态。以跳高为例,目的是在样本空间中找到跑和跳两个动作模式,并且最大化正样本和负样本的距离…

【这篇文章处理的问题,本质上,是对于按照时间分布的数据,其类内方差比较大,而且大的原因是因为存在stage,所以提出一种方法来处理这种数据问题。也就是做分类是,当类内方差比较大时,我先对类内进行学习,得到一个中间步骤,再根据这些中间步骤决定最后的类别。】
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐