您的位置:首页 > Web前端

姿态论文整理--05-Learning feature pyramids for human pose estimation

2017-11-25 20:55 561 查看
Learning feature pyramids for human pose estimation(2017年发表)

如果说有人注意到了pose estimation中没人做过形态的扭曲而写了一篇global & local noramlization,从而将人体形态调整到一个固定的方位。那么这篇文章就是注意到了没人在pose estimation中做过目标对象的缩放而做了一个肢体因而做了这篇论文——全身各部件的缩放。

总体结构:

这篇提出的用于缩放的相应方法是Pyramid residual Module,通过不同ratio下采样获取不同尺度下的特征。然后filtered features 再上采样得到相同分辨率。二者加起来用于后续的流程。

关于分支结构和分支结构的权重初始化:

这篇文章总结到,最近很多网络的设计都用到了分支结构,e.g., Inception models [47, 30, 48, 46] and ResNets [25, 26] for classification, ASPP-nets [9] for semantic segmenta- tion, convolutional pose machines [55] and stacked hourglass networks [39] for human pose estimation。然后,这篇文章的prm也用到了这种结构。

另外一个观察是现有权重初始化不适合分支结构, e.g., MSR [24] and Xavier [21] methods。这篇文章用到了Hourglass网络,所以也做了优化。

Pose estimate的历史:

模式识别的方法,pictorial structures,[19,17,61]以及loopy 结构[44,49,18],这些方法都是基于HOG 特征的[15]。后来是神经网络,目前为止最前沿的技术[3,29,5,55,39,12,59,13,7,40]。最早的是deepPose[53],是使用回归坐标点的方法。坐标点难以训练学习,后来的方法都是将点做了高斯转换得到score map。同时,还会用到多尺度获得丰富特征。

多尺度特征Hourglass无疑是最成功的。但后面的多种网络结构对这这一基础网络做了调整和优化,有更好的效果。比如这篇,将使用金字塔模型。不是普通的金字塔,而是组合了residual模型和Inception的金字塔,所以计算要求不高。

对于网络:

平直的网络效果不如多分支网络,如alexnet/vgg不如inception。ResNet可当作二路分支网络,ResNeXt是ResNet的增强版。直观的感觉是,通过组合多层次达到增强的效果。

初始化:

花书《deep learning》写道非凸损失函数没有收敛性保证,因此对初始化敏感(凸函数初始化对结果没影响,所以不敏感),而且初始化要将权值设置为小的随机数。初始化历史,Hinton and Salakhutdinov [27] adopted the layer-by-layer pretraining strategy 。 Krizhevsky et al. [33]使用高斯分布初始化,但因为不稳定不适合深度神经网络。 Xavier initialization [21] 适合sigmoid或tanh激活函数,不时候ReLu。He et al. [24] 提出针对Relu的初始化方法。但是这些方法都是适合平直的网络,这篇文章提出了一种可以初始化多分支的方法。

这篇的网络结构:



Hourglass使用前馈网络的方式获取信息,下采用得到特征图feature map,再上采用得到高分辨率特征,但只能得到一个scale下的特征(However, it can only capture visual patterns or semantics at one scale )。这是这篇文章要搞事情的着手点,直观上就是使用不同分辨率率来学习filter。



输入特征金字塔:

DCNN中普通调整分辨率的方法是max-pooling & average-pooling,但使用他们时,分辨率下降太快,然后这篇文章使用了 fractional max-pooling [22]的方法平滑和下采样。

所以一起构建金字塔结构的不仅有下采样/卷积和上采样,还有膨胀卷积算法。



权重的初始化:

这篇文章所用权重初始化也是在总结先前研究基础之上的工作(Our derivation mainly follows [21, 24])。

分支组合的方差变大问题:

使用ResNet结构的时候,在组合多个分支的时候,因为有一个分支还是原图,所以会造成方差的升高,网络越深,方差升高的越难以控制,所以这篇文章在这儿也做了一些处理 :将原图替换成了加入了归一化层的分支。In this paper, we use a 1 × 1 convolution preceding with batch normalization and ReLU to replace the identity map。

这篇文章的特点:

1.从整体上的设计到明显的网络结构模块化的设计特点

2.模块化凸显了清晰明了的组织结构

组织结构包括了多分支,权重共享设计,方差处理。

模块则包含了上下采样的Hourglass,resNet,以及dialation conv模块,还有concatenation合并分支的模块和Addition合并分支的模块。

3.功能性清晰,明显感觉神经网络的透明化

这篇文章不止有创新点,关键是综诉性很强的一篇论文,非常难得。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐