Hierarchical Question-Image Co-Attention for Visual Question Answering
2017-04-11 19:43
531 查看
当前基于视觉注意的一些VQA方法主要关注:”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机,文中提出一种多模注意模型:Co-attention + Question Hierarchy。
Co-attention:这个部分包括基于图像的attention和基于问题的attention。图像的表示有助于提取Question Attention,同理问题的表示也有助于视觉注意的提取。
Question Hierarchy:论文提出一种图像和问题协同注意的分层架构,主要分为三层。
a).word level。将每个单词表示成向量
b) phrase level 利用一个1D CNN提取特征
c) question level 利用RNN编码整个问题。
这篇论文的主要贡献:
1.提出co-attention mechanism 机制处理VQA任务,并且采用两种策略应用这中机制,parallel and alternating co-attention。
2.采用分层结构表示问题,因此构建的image-question co-attention maps分为三个层次:word level, phrase level and question level.
3.在phrase level,采用convolution-pooling strategy 自适应选择phrase size。
4.在VQA dataset和COCO-QA上进行测试。
论文整体框架:
Method介绍
一些符号表示,
Question Hierarchy
首先将问题映射到一个向量空间
。为了得到phrase features,利用1-D CNN作用于Qw,在每个单词位置计算单词向量和卷积核的内积,卷积核有三个size,unigram, bigram and trigram,卷积后的输出
之后在三个卷积核卷积之后的结果中做一次max-pooling,
最后将得到的max-pooling结果送入到LSTM中提取特征。整个框架如图:
Co-Attention
论文中提出两种Co-attention机制:parallel co-attention和alternating co-attention。第一种是同时生成image和question attention,第二种交替生成attention。
Parallel Co-Attention。通过计算image和question特征之间的相似性,使image和question联系起来。给定image feature map V和question 表示Q,相关矩阵C:
将C当作是一种特征,可以预测image和question attention maps:
基于以上的attention weight,image和question attention map可以利用image features和question features计算,
Alternating Co-Attention。主要由三步组成:1.将问题总结成一个单向量q;2.基于q,集中注意于image;3.基于attended image feature,集中注意question。
在第一步,X=Q,g=0;第二步,X=V,g由第一步的attended question feature生成;最后,再次利用attended image feature 作为attended question feature的g
Encoding for Predicting Answers。论文中提取1000种最常出现的答案,并把VQA当成是1000-way分类问题。基于三种levels的co-attended image和question features预测答案。利用MLP编码attention features:
结果展示:
Co-attention:这个部分包括基于图像的attention和基于问题的attention。图像的表示有助于提取Question Attention,同理问题的表示也有助于视觉注意的提取。
Question Hierarchy:论文提出一种图像和问题协同注意的分层架构,主要分为三层。
a).word level。将每个单词表示成向量
b) phrase level 利用一个1D CNN提取特征
c) question level 利用RNN编码整个问题。
这篇论文的主要贡献:
1.提出co-attention mechanism 机制处理VQA任务,并且采用两种策略应用这中机制,parallel and alternating co-attention。
2.采用分层结构表示问题,因此构建的image-question co-attention maps分为三个层次:word level, phrase level and question level.
3.在phrase level,采用convolution-pooling strategy 自适应选择phrase size。
4.在VQA dataset和COCO-QA上进行测试。
论文整体框架:
Method介绍
一些符号表示,
Question Hierarchy
首先将问题映射到一个向量空间
。为了得到phrase features,利用1-D CNN作用于Qw,在每个单词位置计算单词向量和卷积核的内积,卷积核有三个size,unigram, bigram and trigram,卷积后的输出
之后在三个卷积核卷积之后的结果中做一次max-pooling,
最后将得到的max-pooling结果送入到LSTM中提取特征。整个框架如图:
Co-Attention
论文中提出两种Co-attention机制:parallel co-attention和alternating co-attention。第一种是同时生成image和question attention,第二种交替生成attention。
Parallel Co-Attention。通过计算image和question特征之间的相似性,使image和question联系起来。给定image feature map V和question 表示Q,相关矩阵C:
将C当作是一种特征,可以预测image和question attention maps:
基于以上的attention weight,image和question attention map可以利用image features和question features计算,
Alternating Co-Attention。主要由三步组成:1.将问题总结成一个单向量q;2.基于q,集中注意于image;3.基于attended image feature,集中注意question。
在第一步,X=Q,g=0;第二步,X=V,g由第一步的attended question feature生成;最后,再次利用attended image feature 作为attended question feature的g
Encoding for Predicting Answers。论文中提取1000种最常出现的答案,并把VQA当成是1000-way分类问题。基于三种levels的co-attended image和question features预测答案。利用MLP编码attention features:
结果展示:
相关文章推荐
- 论文笔记: Hierarchical Question-Image Co-Attention for Visual Question Answering
- Hierarchical Question-Image Co-Attention for Visual Question Answering
- 论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
- ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering
- Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
- Stacked Attention Networks for Image Question Answering
- Stacked Attention Networks for Image Question Answering
- 论文笔记 :Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- 论文研读--Stacked Attention Networks for Image Question Answering
- 论文阅读:Learning Visual Question Answering by Bootstrapping Hard Attention
- 阅读笔记(Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)
- Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri
- Dynamic Coattention Networks For Question Answering
- Dynamic Memory Networks for Visual and Textual Question Answering
- End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering
- Exploring Models and Data for Image Question Answering
- 图像显著性论文(一)—A Model of saliency Based Visual Attention for Rapid Scene Analysis
- Reading Note: Gated Self-Matching Networks for Reading Comprehension and Question Answering
- 显著性检测(三)A Model of Saliency-Based Visual Attention for Rapid Scene Analysis