您的位置:首页 > 其它

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio

2020-03-29 12:38 375 查看

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. CVPR,2019

摘要

  • Vision-language navigation(VLN)任务是一项令一个在真实3D环境中的智能体按照给定的自然语言指令进行导航移动的任务。在这篇文章中,我们研究如何解决这个任务中的三个关键问题:跨模态的grounding,不适定反馈和模型泛化问题。首先,我们提出了一个基于强化学习的跨模态匹配(RCM)方法,使用RL强制对局部和全局之间的跨模态信息进行grounding。具体地,使用一个匹配度评论家提供内部奖励以鼓励在轨迹和指令之间的全局匹配,再使用一个推理导航员在局部区域内执行跨模态的grounding。在一个经典的VLN基准数据集上测试我们的RCM方法,得到了比之前工作高10%SPL的结果,实现了新的sota表现。为了提高学习策略的泛化能力和通用型,我们还介绍了SIL模型以探索在位置环境中模型模仿过去经验以生成好的决策结果。我们得出结论,SIL在处理未知和已知环境时可以极大化的最小两者差距,得到一个更好更有效的策略。(从30.7%到11.7%)

Motivation

  • 路径A是与指令对应的正确路径,路径B和C是VLN任务的某个解决模型生成的路径,可以看出目前方法存在以下问题:首先,在文本和图像之间进行推理很难,尤其是两者之间的匹配度检测很难。其次,能够获得的反馈很粗糙,比如只有是否到达target3m范围内的信息,没有对导航过程中路径是否正确的即时反馈。如,模型会判定路径B不成功,仅因为它路径的终点没有到达target圈内。而会认为路径C成功,尽管它路径是完全乱走的。
  • 因此,本文提出了RCM机制,使用RL强化学习部分和全局的跨模态的信息匹配程度。在全局上,使用匹配评论家,通过循环重构的奖励对已经完成的轨迹进行评价,通过这个机制,可以避免判定路径C优于路径B的错误。在局部上,使用推理导航员机制,通过当前视角和文本指令之间的跨模态信息,判定下一时刻要关注的方向和要关注的字句。通过匹配评论家提供的内部奖励和环境提供的外在奖励,推理导航员学着ground自然语言到局部视觉场景和全局视觉轨迹中。
  • 在R2R数据集上验证RCM模型的有效性,还证实了本模型能够在未知和已知环境中解决gap问题。因为本文使用SIL自监督模仿学习方法探索未知环境,该方法非常有用,因为它利用了历史的已知信息的知识适应未知环境。

Contribution

  • 我们提出了RCM方法解决了跨模态之间的匹配问题。
  • RCM模型在R2R数据集上达到了sota
  • 我们提出了SIL方法能够更好地适应位置环境。

RCM

  • RCM = reasoning navigation + matching critic
  • 给定初始状态和自然语言指令,推理导航员学者按照自然语言指令执行一系列动作,构成一段导航轨迹,到达目标区域。
  • 为了强化策略的学习,我们提出了两个奖励:外部奖励由环境提供,测量了每个的导航偏差和成功信号,内部奖励由匹配度评价员提供,测量了目前的轨迹和导航指令之间的匹配程度。

reasoning navigation

  • 推理导航员在强化学习中是基于策略的智能体agent,是输入指令到输出动作的映射。在每一步,在环境中接受当前状态也就是全景特征(本文和上篇文章一样,采用了全景图),并将文本指令ground到当前的局部视觉场景图中。

  • t时刻的历史轨迹上下文向量使用带有注意力机制的LSTM编码器生成,考虑了上一时刻的历史轨迹向量,上一时刻的动作,当前时刻的全景图(由不同视角的局部场景图加权生成)。
  • 其中,文本上下文特征使用不同单词间和上一时刻文本上下文特征的attention混合而成。

  • 同理,视觉上下文特征也是使用不同视角场景图和上一时刻视觉上下文特征的attention混合而成。
  • 而动作预测机制,通过综合考虑轨迹上下文向量,文本上下文特征和视觉上下文特征,使用双线性点乘预测每个导航方向概率。

matching critic

  • 设计匹配评价员以获得轨迹和文本程度匹配的内部奖励。使用带attention机制的seq2seq模型实现轨迹编码器,连接到自然语言解码器生成当前轨迹对应的指令语言,将生成的指令语言可以重构出给定指令语言单词的概率作为内部奖励,重构概率越高奖励越大。

  • 对应的外部奖励是使用强化学习直接最大化评价指标,即偏差距离和成功率。使用当前时刻的偏差距离和历史累积偏差距离组合而成。

自监督模仿学习SIL

  • 在已知环境中训练智能体,在未知环境中测试RCM模型。给定一个没有对应目标位置的自然语言指令,使智能体自己从过去的好的决策中学习产生一系列可能的轨迹,然后使用匹配度评论家选出最好的轨迹输入到replay buffer中辅助训练,使用如此自监督的方法优化接下来的轨迹生成,由于没有目标终点,因此这是无监督的一种方法。

Experiment

  • 评价指标分别为:路径长度,偏差距离,oracle成功率,成功率,成功率与路径长度的比值(平衡两者)。
  • 本文认为SPL是更客观更好的评价指标。
  • 点赞
  • 收藏
  • 分享
  • 文章举报
yyyyyyyyXu 发布了22 篇原创文章 · 获赞 2 · 访问量 790 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐