您的位置:首页 > 其它

论文阅读:Neural Image Caption Generation with Visual Attention

2017-10-18 11:37 1256 查看
原文地址

代码地址

  作者在同一个framework下提出两种基于attention的image caption generators:一种是可以通过标准的BP进行训练的soft attention,另一种是通过最大化变分下界或增强学习来训练的hard attention(“hard”stochastic attention mechanism trainable by maximizing an approximate variational lower bound or equivalently by REINFORCE )。

  两者的主要区别体现于后面定义的Φ函数上。

模型细节

编码器

  编码器使用一个CNN,用一张图片作为输入,输出一个1-of-K的词序列。


  为了保持从CNN提取出的特征向量和原图像的对应关系,作者没有从最后的全连接层提取特征,而是从相对低的卷积层中提取特征,提取出的L个特征被操作为annotation vectors,每一个vector都是D维的,即


  

解码器

主要使用一个LSTM作为解码器。LSTM的cell结构如图。



————————————————————————————————————



在这些equations中,context vector zt→是输入图像的relevant part在t时刻的动态表达,是以annotation vectors为输入通过Φ函数计算得出的。

在hard attention模型中,对每一个annotation vector ai→所对应的图像中的location i,模型会产生一个非负权值αi,可以被视为location i是用来产生下一个word的relevant part的概率(soft版本的attention基本沿用Bahdanau et al.(2014))。αi通过 attention model fatt 计算得到,fatt是一个基于前一时刻的hidden state ht−1 的MLP(Multilayer perceptron),也就是说,这一时刻模型会“看”向哪里取决于之前已经产生的词序列。具体计算方法如下:



LSTM的初始的memory state(或称cell state)和hidden state通过两个独立的以annotation vectors均值为输入的MLP估计所得。



作者使用deep output layer(Pascanu et al.,2014)来计算输出单词的概率。



Stochastic “Hard” Attention

基本看不懂。。。

大致说定义一个目标函数Ls,本质是一个log概率的变分下界(variational lower bound on the marginal log-likelihood);learning rule 曾在Bahdanau et al.(2014))中被提到与
Williams,  Ronald  J.    Simple  statistical  gradient-following  algorithms  for  connectionist  reinforcement  learning
中的REINFORCE learning rule 等价。

Deterministic “Soft” Attention

  定义一个location variable st,用来表示当模型在产生第t个词时attention focus的位置。st,i 是一个one-hot的indicator,当i-th location(out of L)被用来提取视觉特征时它的对应位就会被置为1。

  hard version需要在每一时刻对st进行采样导致目标函数不可导。而soft attention 则直接获取context vector zt→的期望

  




  ϕ({ai→},{αi})=∑Liαiai→

整个模型是连续可导的。

还有另一种理解方法,牵扯到hard version的数学理论,基本没看懂,PASS。

  作者对soft attention提出一种名为 doubly stochastic attention的改进。因为式(5)我们很容易能知道∑Liαti=1,与此同时作者约束∑tαti≈1,这意味着促使模型在整个生成image caption过程中的不同时刻对输入图片的所有L个部分倾注相同的注意力,即对任意i-th location,它在整个T内获得的attention权重总和都约等于1。在实验部分这被证实能够定量提高模型分数以及定性提升caption的丰富度和区别度。

  另外增加一个gating scalar β,则模型更新为:

  ϕ({ai→},{αi})=β∑Liαiai→

其中:

  βt=σ(fβ(ht−1))

加入这一标量之后模型会把更多的注意力图片中的objects上。

总体来说,改进后的模型的目标函数如下:



后面就是实验结果和结论了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  deep-learning
相关文章推荐