您的位置：首页 > 产品设计 > UI/UE

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding——EMNLP2016

2019-04-17 14:39 357 查看

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding——EMNLP2016

文章链接：
https://arxiv.org/pdf/1606.01847v3.pdf

概述：本文的主要工作点在多模态融合时两个特征的融合使用双线性（外积、克罗内克积）能够更好更全面地表征但外积使维度平方因此该压缩双线性pooling可以将bilinear的结果压缩并基于该pooling方式提出了MCB attention network
方法：
网络结构图

收获：

双模态融合的方式包括 element-wise product element-wise sum concatenation bilinear等
一种映射方法：Count Sketch 映射前向量为a （n维）映射后为b（d维）这里有两个参数数组

s表示第n个元素加的权 h表示第n个元素加到映射后的那个位置所以b[h[i]]+=a[i]*s[i]
3. 两向量作外积之后的映射等于两向量分别作映射后的卷积

4．两个向量的卷积可以使用FFT 快速傅里叶变换代替 =
6. 本算法评估计算使用的VQA的评估方法主要用的real image
7. Visual Genome比VQA分布更均衡答案长度也更长 visual7W是MC
8. 一个质疑是MCB的提升可能只是增加了参数然后使用相等参数量的FC做了比对实验
9. 该模型使用两次attention效果最好该思想与stack residual CoR等相近
10. Bilinear融合的两方目前永远是跨模态的特征相同模态（如不同Region不使用Bilinear）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航