您的位置:首页 > 其它

姿态估计 RMPE: Regional Multi-Person Pose Estimation 论文学习

2018-02-06 15:19 302 查看
小白一只,正在学习 论文RMPE: Regional Multi-Person Pose Estimation[1]

[1] Fang H, Xie S, Lu C. Rmpe: Regional multi-person pose estimation[J]. arXiv preprint, 2017.

现阶段常用的姿态识别方法,包括两步(two-step framework) 框架 基于部分(part-based)的框架。其中两步框架,首先检测边框(bounding boxes), 然后估计边框中的动作,这两步分别进行。缺点是姿态估计的准确率受限于 边框 定位的准确与否。

而基于部分的框架,独立检测身体的某些部分(头部,肘部等)然后将这些部分组成多个人体姿态。缺点是当有多个人靠的很近时,无法将不同人的姿态分开。
论文提出的方法,基于 两步法框架,并能在边框不准确的情况下,正确的检测人体姿态。
总体来看,论文提出了regional multi-person pose estimation (RMPE) framework 包括三个创新部分,
一个是对称空间变换网络 symmetric spatial transformer network (SSTN) 结合  SPPE Stacked Hourglass model,作用是从一个不准确的边框中提取一个高质量的单个人区域, 同时引入一个并行的SPPE分支来优化这个网络。
二是,为了消除冗余的检测,引入参数姿态非最大抑制(NMS),采用一种新的姿态距离估计的测度去比较姿态的相似性。这种距离测度参数是基于数据驱动进行优化的。
三是文章还提出了一种由姿态引导的样本生成器(Pose-guided Proposals Generator),通过学习不同姿态人体检测器的输出分布,模拟人体边框的生成,产生大量的训练样本。



缩写的解释:
Regional Multi-person Pose Estimation(RMPE)
symmetric spatial transformer network (SSTN)
spatial de-transformer network (SDTN)

pose-guided proposals generator (PGPG)
Parametric Pose Non-Maximum-Suppression (NMS)
具体来看,

1. Symmetric STN and Parallel SPPE:

作者 针对 Stacked hourglass networks for human pose estimation  SPPE 算法,受到边框定位不准确影响非常大的缺点,加入了一个空间转换网络(STN)同时有并行SPPE分支,来提高SPPE的性能。
数学上利用2D仿射变换公式,STN将图片的propposal 区域变换到另一个坐标系中,在新的坐标系中进行SPPE,然后通过与其对应的空间解变换网络SDTN反变换,将SPPE的结果映射回原始图片区域。
SPPE分支 使用了上述同样的STN,经过SPPE,然而没有 SDTN反变换。因此,这个分支的人体姿势的label 应该是居中的,确切的说,这个分支的输出相当于居中定位的真实姿态(蒙圈中....)在训练阶段,这个分支是被冻结的,这个分支的权重是固定的,其存在的目的是向STN变换网络 反向传播居中定位的姿态错误 。这样,TSN就可以专注于正确的区域,并且提取高质量的人主导的区域。
在测试阶段,这个并行分支被舍弃。这种方法的有效性是通过后续的实验进行验证的。
作者解释这个并行分支的作用,可以看做一个训练阶段的正则化子,帮助STN避免陷入局部最小,也就是STN转换不是 全部转为 区域中心。With the parallel SPPE, the STN is trained to move the human to the center of the extracted region to facilitate
accurate pose estimation by SPPE.

2. Parametric Pose NMS

人体检测器不可避免地产生冗余检测,这又会产生冗余的姿态估计。
因此,姿态非最大抑制(NMS)要求消除冗余。 以前的方法要么不够高效,要么不够准确。本文提出了一种参数姿态NMS方法。
首先,置信度最大的姿态被当做参考,与其相近的姿态通过 消除准则 消除掉。剩下的姿势重复这个过程,直到多余的姿态被淘汰,只有唯一的姿态被认定。

3. Pose-guided Proposals Generator

数据增广:对于两部框架的检测方法来说,数据增广是非常有必要的,它使 训练的SSTN+SPPE 模型能够在目标检测产生的不完美的human proposal 下进行自动适应。通过 样本生成器,bounding box 的数量会增加许多,从而提高系统的表现。
作者发现,对于不同的姿态,检测到的bounding box 与真实值 的偏差是 不同的,因此,如果能模拟这种分布偏差,就能够产生更多的训练样本。
具体公式,查看论文。
实验部分 该系统在姿态估计(pose estimation)的标准测试集MPII Multi-Person Dataset 达到了平均 72 mAP。在MSCOCO Keypoints datase上也达到了最优的效果。

最近,作者开源了系统的部分代码

主页(包括代码):http://mvig.sjtu.edu.cn/research/adha.html数据:http://mvig.sjtu.edu.cn/research/adha/adha.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐