您的位置：首页 > 大数据 > 人工智能

论文阅读笔记 | (ICCV 2017) Multi-Attention CNN for Fine-Grained Image Recognition：MA-CNN

2018-11-11 16:53 851 查看

论文来自中国科学技术大学、微软亚洲研究院以及University of Rochester。

论文下载：Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition

Abstract

识别细粒度类别（例如，鸟类）高度依赖于判别性部分定位（discriminative part localization）和基于部分的细粒度特征学习（part-based fine-grained feature learning）。现有方法主要独立地解决这些挑战，而忽略了部分定位（例如，鸟的头部）和细粒度特征学习（例如，头部形状）相互关联的事实。在本文中，我们通过multi-attention convolutional neural network（MA-CNN）提出了一种新颖的part learning方法，其中part generation和feature learning可以相互加强。

MA-CNN由convolution, channel grouping 和 part classification子网络组成。channel grouping网络从卷积层中获取输入特征通道，并通过从空间相关通道中聚类、加权和池化来生成多个部分。part classification网络进一步按每个单独的部分对图像进行分类，通过该图像可以学习更多的判别性细粒度特征。提出了两个loss来指导channel grouping和part classification的多任务学习，这鼓励MA-CNN从特征通道生成更多的判别部分，并以相互强化的方式从判别部分中学习更好的细粒度特征。

MA-CNN不需要边界框/部分注释，可以端到端地进行训练。文章将来自MA-CNN的学习部分与部分CNN结合起来进行识别，并在三个具有挑战性的已发布的细粒度数据集上展示最佳性能，例如CUB-Birds，FGVC-Aircraft和Stanford-Cars。

1. Introduction

首先，卷积特征通道（convolutional feature channel）通常对应于某种类型的视觉模式。因此，channel grouping子网络将空间相关模式聚类和加权成来自其峰值响应出现在相邻位置的通道的部分关注映射（part attention maps）。多样化的高响应位置进一步构成multiple part attention maps，通过裁剪成固定大小从中提取multiple part proposals。

其次，一旦获得part proposals，part classification网络进一步通过基于部分的特征对图像进行分类，基于部分特征是在全卷积特征图上空间池化得到的。这样的设计可以通过消除对其他部分的依赖性来特别优化与特定部分相关的一组特征通道，因此可以学习该部分上的更好的细粒度特征。

第三，联合实施两个优化损失函数来指导channel grouping和part classification的多任务学习，这促使MA-CNN从特征通道生成更多的判别部分，并以相互加强的方式从部分中学习更细粒度的特征。具体地，文章提出了一种channel grouping loss function来优化channel grouping子网络，其考虑了空间区域上的高类内相似性和类间可分性的信道簇作为部分关注，因此可以产生紧凑和多样化的部分提议。

一旦定位了part，从图像中放大每个注意部分并将其馈送到part-CNNs管道，其中每个part-CNN通过使用相应的part作为输入来学习到类别。为了进一步利用部分集合的强大功能，通过学习全连接的融合层，将来自多个部分的特征被深度融合，来对图像进行分类。

3. Approach

MA-CNN

这是一个找到mask的过程。
一张图像输入VGG19取conv5_4输出的特征表示为WxX.。论文分别通过N个全链接层，得到4个d；然后将d与WxX对应元素相乘，在并在channel维度上取总和再通过sigmoid激活函数，得到N个Mask(Mi)；再将mask与WxX对应元素相乘并channel上取总和得到带attention的特征P。

Loss

multi-attention顾名思义有多个注意点，那么如何让多个特征图的关注点在不同的位置？论文提出可以通过loss的监督来实现。
Loss由L_cls和L_cng组成。L_cls是用于图像分类的softmaxloss，L_cng是用于监督关注区域的.

Part-CNN + details

找到带不同的关键区域的Mask后去他们的峰值点位置映射到原图对应点。
以其为中心点切割N块9696的小块并将他们放大到224224再放到VGG19中得到关键区域的特征，将原特征和关键区域特征拼接起来喂到网络最后的分类器中。

4. Experiment

类似fastRCNN的使用循环式的训练方式。

首先固定VGG的参数，优化L_cng找到不同的关注点。
其次固定关键区域的位置，优化L_cls调整VGG的参数。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航