论文阅读:《Structured Feature Learning for Pose Estimation》CVPR 2016
2017-10-23 18:20
621 查看
概述
本文仍然是使用CNN,其创新点在于如何对关节之间的依赖进行建模,解决方法是在卷积层使用几何变换核。此外还提出了双向的树结构模型,这样每个关节的特征通道都可以接受其他关节点信息。网络架构/算法流程
输入是一张RGB静态图片。经过CNN(论文中采用的CNN是VGG Net),得到和关节个数数量相同的heatmap,然后这些heamap通过信息传递进行refined。信息传递的方式是使用双向树结构,按照图(2,a)的方式进行bottom-up的卷积,此外还按照图(2,b)的方式进行top-down的卷积。最终得到预测的结果。
创新点
1,几何变换核图中a-c表明,对于一个高斯分布的图像,使用不同的几何变换核,是可以得到不同的分布的,说明几何变换核可以改变高斯分布,包括位置和强度。对于右边的d图,e和f分别是它的elbow和arm,可以看到arm的定位比较准确,但是elbow的定位较差,因此作者想到使用几何变换核将arm的位置移动到elbow的位置,以此来学习这种相对位置的变换。将g与e叠加,获得最大的峰值(相当于一个阈值的控制),就有效的去除了多峰值的问题。
2,双向树模型
所谓树模型就是将人体的关节看作是一个树状的模型,在网络结构中采用自下而上和自上而下两种方式进行卷积,采用这种相反方向的传播是为了相互补充。树状图中每个节点具体的计算方式也在网络框架中提出了,带有撇的就是经过处理的。基本也是按照卷积,融合和激活的计算方式。最终的结果就是这样的Ak, Bk的heatmap经过连接,就可以预测第k个关节的heatmap。
2,后处理
之前看的论文都是单人姿态估计,如果图像中出现了多个清晰的人物,也应该对其关节点做一个估计。论文中的具体做法是关节点i和关节点j的位置分别是(xi,yi),(xj,yj),那么xr = (xi+xj)/2,yr = (yi+yj)/2。那么dx = xi-xj-xr, dy = yi-yj-yr。[dx^2, dy^2]就是距离描述子,它的权重是[0.01,0.01]。
总结
论文最大的贡献就是提出了一个关节点之间依赖的几何变换核,另一个就是提出的树结构能够解决多人姿态估计。本篇论文值得一提主要是因为他在MPII竞赛中曾经排名榜首,不过作者提出的方法在理论上不是那么完善,可能更多的是依靠工程化的方法将成绩刷的较高。不过这种对于人体关节的结构化信息的关注也在CVPR 2017论文《Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》中使用到。相关文章推荐
- 论文阅读:Structured Feature Learning for Pose Estimation
- 论文阅读理解 - Learning Feature Pyramids for Human Pose Estimation
- 论文阅读:《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016
- 姿态论文整理--05-Learning feature pyramids for human pose estimation
- Structured Feature Learning for Pose Estimation
- 【文献阅读】ResNet-Deep Residual Learning for Image Recognition--CVPR--2016
- 论文阅读 Multi-Scale Structure-Aware Network for Human Pose Estimation
- 《Deeply-Learned Feature for Age Estimation》论文阅读笔记
- 论文阅读理解 - Stacked Hourglass Networks for Human Pose Estimation
- [深度学习论文笔记][CVPR 16]Deep Metric Learning via Lifted Structured Feature Embedding
- 论文阅读之:Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space
- [CVPR2016]Learning Deep Feature Representations with Domain Guided Dropout for Person Re-id
- 论文阅读:《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》CVPR 2017
- 【手势识别-论文学习】 Hands Deep in Deep Learning for Hand Pose Estimation
- 论文阅读笔记: 2017 cvpr Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
- [2016,CVPR] Learning Deep Feature Representations with Domain Guided Dropout for Person Re-id
- 论文阅读理解 - Multi-Context Attention for Human Pose Estimation
- 论文阅读:Poselet-Based Contextual Rescoring for Human Pose Estimation
- 论文阅读:《Towards accurate multi-person pose estimation in the wild》CVPR 2017
- 论文阅读:《Convolutional Pose Machines》CVPR 2016