您的位置：首页 > 产品设计 > UI/UE

Hierarchical Question-Image Co-Attention for Visual Question Answering

2017-04-11 19:43 531 查看

当前基于视觉注意的一些VQA方法主要关注：”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机，文中提出一种多模注意模型：Co-attention + Question Hierarchy。

Co-attention：这个部分包括基于图像的attention和基于问题的attention。图像的表示有助于提取Question Attention，同理问题的表示也有助于视觉注意的提取。

Question Hierarchy:论文提出一种图像和问题协同注意的分层架构，主要分为三层。

a).word level。将每个单词表示成向量

b) phrase level 利用一个1D CNN提取特征

c) question level 利用RNN编码整个问题。

这篇论文的主要贡献：

1.提出co-attention mechanism 机制处理VQA任务，并且采用两种策略应用这中机制，parallel and alternating co-attention。

2.采用分层结构表示问题，因此构建的image-question co-attention maps分为三个层次：word level, phrase level and question level.

3.在phrase level，采用convolution-pooling strategy 自适应选择phrase size。

4.在VQA dataset和COCO-QA上进行测试。

论文整体框架：

Method介绍

一些符号表示，

Question Hierarchy

首先将问题映射到一个向量空间

。为了得到phrase features，利用1-D CNN作用于Qw，在每个单词位置计算单词向量和卷积核的内积，卷积核有三个size，unigram, bigram and trigram，卷积后的输出

之后在三个卷积核卷积之后的结果中做一次max-pooling,

最后将得到的max-pooling结果送入到LSTM中提取特征。整个框架如图：

Co-Attention

论文中提出两种Co-attention机制：parallel co-attention和alternating co-attention。第一种是同时生成image和question attention，第二种交替生成attention。

Parallel Co-Attention。通过计算image和question特征之间的相似性，使image和question联系起来。给定image feature map V和question 表示Q，相关矩阵C：

将C当作是一种特征，可以预测image和question attention maps：

基于以上的attention weight，image和question attention map可以利用image features和question features计算，

Alternating Co-Attention。主要由三步组成：1.将问题总结成一个单向量q；2.基于ｑ，集中注意于image;3.基于attended image feature，集中注意question。

在第一步，X=Q，g=0；第二步，X=V，g由第一步的attended question feature生成；最后，再次利用attended image feature 作为attended question feature的g

Encoding for Predicting Answers。论文中提取1000种最常出现的答案，并把VQA当成是1000-way分类问题。基于三种levels的co-attended image和question features预测答案。利用MLP编码attention features：

结果展示：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： VQA 视觉问答

相关文章推荐

新的分享

章节导航