您的位置：首页 > Web前端

姿态论文整理--05-Learning feature pyramids for human pose estimation

2017-11-25 20:55 561 查看

Learning feature pyramids for human pose estimation（2017年发表）

如果说有人注意到了pose estimation中没人做过形态的扭曲而写了一篇global & local noramlization，从而将人体形态调整到一个固定的方位。那么这篇文章就是注意到了没人在pose estimation中做过目标对象的缩放而做了一个肢体因而做了这篇论文——全身各部件的缩放。

总体结构：

这篇提出的用于缩放的相应方法是Pyramid residual Module，通过不同ratio下采样获取不同尺度下的特征。然后filtered features 再上采样得到相同分辨率。二者加起来用于后续的流程。

关于分支结构和分支结构的权重初始化：

这篇文章总结到，最近很多网络的设计都用到了分支结构，e.g., Inception models [47, 30, 48, 46] and ResNets [25, 26] for classification, ASPP-nets [9] for semantic segmenta- tion, convolutional pose machines [55] and stacked hourglass networks [39] for human pose estimation。然后，这篇文章的prm也用到了这种结构。

另外一个观察是现有权重初始化不适合分支结构， e.g., MSR [24] and Xavier [21] methods。这篇文章用到了Hourglass网络，所以也做了优化。

Pose estimate的历史：

模式识别的方法，pictorial structures,[19,17,61]以及loopy 结构[44,49,18]，这些方法都是基于HOG 特征的[15]。后来是神经网络，目前为止最前沿的技术[3,29,5,55,39,12,59,13,7,40]。最早的是deepPose[53]，是使用回归坐标点的方法。坐标点难以训练学习，后来的方法都是将点做了高斯转换得到score map。同时，还会用到多尺度获得丰富特征。

多尺度特征Hourglass无疑是最成功的。但后面的多种网络结构对这这一基础网络做了调整和优化，有更好的效果。比如这篇，将使用金字塔模型。不是普通的金字塔，而是组合了residual模型和Inception的金字塔，所以计算要求不高。

对于网络：

平直的网络效果不如多分支网络，如alexnet/vgg不如inception。ResNet可当作二路分支网络，ResNeXt是ResNet的增强版。直观的感觉是，通过组合多层次达到增强的效果。

初始化：

花书《deep learning》写道非凸损失函数没有收敛性保证，因此对初始化敏感（凸函数初始化对结果没影响，所以不敏感），而且初始化要将权值设置为小的随机数。初始化历史，Hinton and Salakhutdinov [27] adopted the layer-by-layer pretraining strategy 。 Krizhevsky et al. [33]使用高斯分布初始化，但因为不稳定不适合深度神经网络。 Xavier initialization [21] 适合sigmoid或tanh激活函数，不时候ReLu。He et al. [24] 提出针对Relu的初始化方法。但是这些方法都是适合平直的网络，这篇文章提出了一种可以初始化多分支的方法。

这篇的网络结构：

Hourglass使用前馈网络的方式获取信息，下采用得到特征图feature map，再上采用得到高分辨率特征，但只能得到一个scale下的特征（However, it can only capture visual patterns or semantics at one scale ）。这是这篇文章要搞事情的着手点，直观上就是使用不同分辨率率来学习filter。

输入特征金字塔：

DCNN中普通调整分辨率的方法是max-pooling & average-pooling，但使用他们时，分辨率下降太快，然后这篇文章使用了 fractional max-pooling [22]的方法平滑和下采样。

所以一起构建金字塔结构的不仅有下采样/卷积和上采样，还有膨胀卷积算法。

权重的初始化：

这篇文章所用权重初始化也是在总结先前研究基础之上的工作（Our derivation mainly follows [21, 24]）。

分支组合的方差变大问题：

使用ResNet结构的时候，在组合多个分支的时候，因为有一个分支还是原图，所以会造成方差的升高，网络越深，方差升高的越难以控制，所以这篇文章在这儿也做了一些处理：将原图替换成了加入了归一化层的分支。In this paper, we use a 1 × 1 convolution preceding with batch normalization and ReLU to replace the identity map。

这篇文章的特点：

1.从整体上的设计到明显的网络结构模块化的设计特点

2.模块化凸显了清晰明了的组织结构

组织结构包括了多分支，权重共享设计，方差处理。

模块则包含了上下采样的Hourglass，resNet,以及dialation conv模块，还有concatenation合并分支的模块和Addition合并分支的模块。

3.功能性清晰，明显感觉神经网络的透明化

这篇文章不止有创新点，关键是综诉性很强的一篇论文，非常难得。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 神经网络姿态识别姿态检测论文

相关文章推荐

新的分享

章节导航