您的位置:首页 > 产品设计 > UI/UE

Hierarchical Question-Image Co-Attention for Visual Question Answering

2017-04-11 19:43 531 查看
  当前基于视觉注意的一些VQA方法主要关注:”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机,文中提出一种多模注意模型:Co-attention + Question Hierarchy。

  Co-attention:这个部分包括基于图像的attention和基于问题的attention。图像的表示有助于提取Question Attention,同理问题的表示也有助于视觉注意的提取。

  Question Hierarchy:论文提出一种图像和问题协同注意的分层架构,主要分为三层。

  a).word level。将每个单词表示成向量

  b) phrase level 利用一个1D CNN提取特征

  c) question level 利用RNN编码整个问题。

  这篇论文的主要贡献:

  1.提出co-attention mechanism 机制处理VQA任务,并且采用两种策略应用这中机制,parallel and alternating co-attention。

  2.采用分层结构表示问题,因此构建的image-question co-attention maps分为三个层次:word level, phrase level and question level.

  3.在phrase level,采用convolution-pooling strategy 自适应选择phrase size。

  4.在VQA dataset和COCO-QA上进行测试。

  论文整体框架:

  


  Method介绍

  一些符号表示,

  


  Question Hierarchy

  首先将问题映射到一个向量空间

。为了得到phrase features,利用1-D CNN作用于Qw,在每个单词位置计算单词向量和卷积核的内积,卷积核有三个size,unigram, bigram and trigram,卷积后的输出

  


之后在三个卷积核卷积之后的结果中做一次max-pooling,

  


最后将得到的max-pooling结果送入到LSTM中提取特征。整个框架如图:

  


  Co-Attention

  论文中提出两种Co-attention机制:parallel co-attention和alternating co-attention。第一种是同时生成image和question attention,第二种交替生成attention。

  Parallel Co-Attention。通过计算image和question特征之间的相似性,使image和question联系起来。给定image feature map V和question 表示Q,相关矩阵C:

  


将C当作是一种特征,可以预测image和question attention maps:

  


  


基于以上的attention weight,image和question attention map可以利用image features和question features计算,

  


  


  Alternating Co-Attention。主要由三步组成:1.将问题总结成一个单向量q;2.基于q,集中注意于image;3.基于attended image feature,集中注意question。

  


  在第一步,X=Q,g=0;第二步,X=V,g由第一步的attended question feature生成;最后,再次利用attended image feature 作为attended question feature的g


  


  Encoding for Predicting Answers。论文中提取1000种最常出现的答案,并把VQA当成是1000-way分类问题。基于三种levels的co-attended image和question features预测答案。利用MLP编码attention features:

  


  


  结果展示:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  VQA 视觉问答
相关文章推荐