1709.HydraPlus-Net-Attentive Deep Features for Pedestrian Analysis 论文笔记
2018-01-09 22:33
525 查看
HydraPlus-Net-Attentive Deep Features for Pedestrian Analysis
面向行人分析的注意力深度特征表达—HydraPlus(“九头蛇”)网络
代码资源:https://github.com/xh-liu/HydraPlus-Net
论文信息:
论文介绍:
行人分析属于细粒度的行人识别任务,如行人属性识别和行人ID再识别,作者提出了一个新颖的基于注意力机制的深度学习网络,架构在inception-V2之上,该网络的优势是能有效整合多级(low-level/semantic-level等)和对尺度下的多种注意力机制特征来丰富最终的特征表达,实验结果显示网络提取的多注意力特征具有互补性,整合后的特征具有更好的细粒度特征表达能力。
作者分别在行人属性识别的数据集和Re-ID数据上做了实验。
所解决问题的动机:如下图所示,引入来自多层级的多尺度注意力特征并整合全局和局部到一个特征向量上
1.Semantic-level全局的特征能定位局部注意力感兴趣区域获得更好的不同行人的判别性(如长发还是短发,长袖还是短袖,有无带帽)
2.Low-level(较低层提取的特征)捕获的多为条纹或纹理特征,如衣服的pattern
3.Scales则是有助于描述行人的特点,如小尺度注意力特征图有无打电话等行为或者大特征注意力特征图的行人整体理解,如判别男女。
模型框架:
采用多向网络即在Main Net(M-Net)的基础上加入Attentive Feature Net(AF-Net),而MFN有三个分支,每个分支有三个inception-V2的Block单元和一个MDA(multi-directional attention)模块(多向是指不同MFN分支上,MDA应用于在不同级别Blocks特征提取上,即MDA处理后的特征图与三个临近的blocks元素乘的连接,即可认为每个MDA有三个输出分支),注意力特征图从不同的语义layers中提取,可抽象出同一行人的不同的视觉模式;
用全局均值池化(GAP)和一个全连接层(FC)联结从M-Net和AF-Net得到的全局和局部多级别多尺度特征,进行最后特征的整合;
作者的创新性设计体现在AF-Net的设计上,即引入来自多层级的多尺度注意力特征并整合全局和局部到一个特征向量上;
In principle, any kind of CNN structure can be applied to construct the HP-net.作者则采用了inception v2 architecture
一个MDA的处理过程:如下图
MDA module includes two components:
(1) attention map generation with black solid lines;
(2) attentive features by masking the attention map to different levels of features in hot dash lines.
HP-Net训练:
HP-Net训练步骤比较繁琐:in a stage-wise fashion,先训练M-Net,完后再被复制三次得到AF-Net的三个分支,每个MDA模块有三个子分支组成,即临近的三个不同的inception blocks,依次微调每个blocks,即共有9个blocks需要微调,对于行人重识别任务,用softmax loss最小化输出层loss。
实验:
Multi-level Attention Maps
下图,以每个输入图像提取某level的L = 8 attention channels 的特征图,来说明不同MDA作用下,多级注意力特征的定性演示:
Fig. 4(a). We observe that the attention map from earlier layer i = 1 prefers grasping low-level patterns like edges or textures, while those from higher layers i = 2 or 3 are more likely to capture semantic visual patterns corresponding to a specific object (e.g. handbag) or human identity.
Multi-Directional Attentive Features
Component Analysis
Person Re-identification
Pedestrian Attribute Recognition
面向行人分析的注意力深度特征表达—HydraPlus(“九头蛇”)网络
代码资源:https://github.com/xh-liu/HydraPlus-Net
论文信息:
论文介绍:
行人分析属于细粒度的行人识别任务,如行人属性识别和行人ID再识别,作者提出了一个新颖的基于注意力机制的深度学习网络,架构在inception-V2之上,该网络的优势是能有效整合多级(low-level/semantic-level等)和对尺度下的多种注意力机制特征来丰富最终的特征表达,实验结果显示网络提取的多注意力特征具有互补性,整合后的特征具有更好的细粒度特征表达能力。
作者分别在行人属性识别的数据集和Re-ID数据上做了实验。
所解决问题的动机:如下图所示,引入来自多层级的多尺度注意力特征并整合全局和局部到一个特征向量上
1.Semantic-level全局的特征能定位局部注意力感兴趣区域获得更好的不同行人的判别性(如长发还是短发,长袖还是短袖,有无带帽)
2.Low-level(较低层提取的特征)捕获的多为条纹或纹理特征,如衣服的pattern
3.Scales则是有助于描述行人的特点,如小尺度注意力特征图有无打电话等行为或者大特征注意力特征图的行人整体理解,如判别男女。
模型框架:
采用多向网络即在Main Net(M-Net)的基础上加入Attentive Feature Net(AF-Net),而MFN有三个分支,每个分支有三个inception-V2的Block单元和一个MDA(multi-directional attention)模块(多向是指不同MFN分支上,MDA应用于在不同级别Blocks特征提取上,即MDA处理后的特征图与三个临近的blocks元素乘的连接,即可认为每个MDA有三个输出分支),注意力特征图从不同的语义layers中提取,可抽象出同一行人的不同的视觉模式;
用全局均值池化(GAP)和一个全连接层(FC)联结从M-Net和AF-Net得到的全局和局部多级别多尺度特征,进行最后特征的整合;
作者的创新性设计体现在AF-Net的设计上,即引入来自多层级的多尺度注意力特征并整合全局和局部到一个特征向量上;
In principle, any kind of CNN structure can be applied to construct the HP-net.作者则采用了inception v2 architecture
一个MDA的处理过程:如下图
MDA module includes two components:
(1) attention map generation with black solid lines;
(2) attentive features by masking the attention map to different levels of features in hot dash lines.
HP-Net训练:
HP-Net训练步骤比较繁琐:in a stage-wise fashion,先训练M-Net,完后再被复制三次得到AF-Net的三个分支,每个MDA模块有三个子分支组成,即临近的三个不同的inception blocks,依次微调每个blocks,即共有9个blocks需要微调,对于行人重识别任务,用softmax loss最小化输出层loss。
实验:
Multi-level Attention Maps
下图,以每个输入图像提取某level的L = 8 attention channels 的特征图,来说明不同MDA作用下,多级注意力特征的定性演示:
Fig. 4(a). We observe that the attention map from earlier layer i = 1 prefers grasping low-level patterns like edges or textures, while those from higher layers i = 2 or 3 are more likely to capture semantic visual patterns corresponding to a specific object (e.g. handbag) or human identity.
Multi-Directional Attentive Features
Component Analysis
Person Re-identification
Pedestrian Attribute Recognition
相关文章推荐
- 行人属性--HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis
- 行人属性“HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis”
- [深度学习论文笔记][Scene Classification] Learning Deep Features for Scene Recognition using Places Database
- [论文笔记]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
- Joint Deep Learning For Pedestrian Detection(论文笔记-深度学习:行人检测)
- 论文笔记 | SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
- 论文笔记 | Learning Deep Features for Discriminative Localization
- Learning Deep Features for Discriminative Localization论文笔记以及Caffe实现
- 论文笔记-An Analysis of Deep Neural Network Models for Practical Applications
- 论文笔记:Deep convolutional activation features for large scale histopathology image classification
- (论文笔记)Deep Learning Strong Parts for Pedestrian Detection
- 论文笔记之:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition--SPP-net论文笔记
- 经典计算机视觉论文笔记——《ImageNet Classification with Deep Convolutional Neural Networks》
- Channel Pruning for Accelerating Very Deep Neural Networks 论文笔记
- SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 论文阅读
- 论文阅读笔记 Picking Deep Filter Responses for Fine-grained Image Recognition
- 论文阅读笔记:ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
- 论文笔记之: Hierarchical Convolutional Features for Visual Tracking
- [深度学习论文笔记][Video Classification] Beyond Short Snippets: Deep Networks for Video Classification