您的位置:首页 > Web前端

论文阅读:《Structured Feature Learning for Pose Estimation》CVPR 2016

2017-10-23 18:20 621 查看

概述

本文仍然是使用CNN,其创新点在于如何对关节之间的依赖进行建模,解决方法是在卷积层使用几何变换核。此外还提出了双向的树结构模型,这样每个关节的特征通道都可以接受其他关节点信息。

网络架构/算法流程



输入是一张RGB静态图片。经过CNN(论文中采用的CNN是VGG Net),得到和关节个数数量相同的heatmap,然后这些heamap通过信息传递进行refined。信息传递的方式是使用双向树结构,按照图(2,a)的方式进行bottom-up的卷积,此外还按照图(2,b)的方式进行top-down的卷积。最终得到预测的结果。

创新点

1,几何变换核



图中a-c表明,对于一个高斯分布的图像,使用不同的几何变换核,是可以得到不同的分布的,说明几何变换核可以改变高斯分布,包括位置和强度。对于右边的d图,e和f分别是它的elbow和arm,可以看到arm的定位比较准确,但是elbow的定位较差,因此作者想到使用几何变换核将arm的位置移动到elbow的位置,以此来学习这种相对位置的变换。将g与e叠加,获得最大的峰值(相当于一个阈值的控制),就有效的去除了多峰值的问题。

2,双向树模型

所谓树模型就是将人体的关节看作是一个树状的模型,在网络结构中采用自下而上和自上而下两种方式进行卷积,采用这种相反方向的传播是为了相互补充。树状图中每个节点具体的计算方式也在网络框架中提出了,带有撇的就是经过处理的。基本也是按照卷积,融合和激活的计算方式。最终的结果就是这样的Ak, Bk的heatmap经过连接,就可以预测第k个关节的heatmap。

2,后处理

之前看的论文都是单人姿态估计,如果图像中出现了多个清晰的人物,也应该对其关节点做一个估计。论文中的具体做法是关节点i和关节点j的位置分别是(xi,yi),(xj,yj),那么xr = (xi+xj)/2,yr = (yi+yj)/2。那么dx = xi-xj-xr, dy = yi-yj-yr。[dx^2, dy^2]就是距离描述子,它的权重是[0.01,0.01]。

总结

论文最大的贡献就是提出了一个关节点之间依赖的几何变换核,另一个就是提出的树结构能够解决多人姿态估计。本篇论文值得一提主要是因为他在MPII竞赛中曾经排名榜首,不过作者提出的方法在理论上不是那么完善,可能更多的是依靠工程化的方法将成绩刷的较高。不过这种对于人体关节的结构化信息的关注也在CVPR 2017论文《Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》中使用到。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐