您的位置：首页 > 其它

【论文翻译】Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

2018-10-27 16:34 721 查看

标题：在室内场景中基于深度强化学习下的目标驱动的视觉导航

作者：Yuke Zhu1 Roozbeh Mottaghi2 Eric Kolve2 Joseph J. Lim1;5 Abhinav Gupta2;3 Li Fei-Fei1 Ali Farhadi2;

摘要：
有两个关于深度强化学习的问题没有得到很好的解决：（1）缺乏对新目标的泛化能力
（2）数据效率低下，即，模型需要多次(而且往往代价高昂)反复试验和错误才能收敛，将其应用于实际场景是不切实际的。

在本文中，我们解决了这两个问题，并将我们的模型应用到目标驱动的视觉导航中。为了解决第一个问题，我们提出了一个actor-critic模型，它的策略是一个有关于目标和当前状态的函数，它泛化性能更好。为了解决第二个问题，我们提出了AI2-THOR 框架，它提供了一个具有高质量3D场景和物理引擎的环境。我们的框架能让agents采取行动，与目标互动。因此，我们可以有效地收集大量的训练样本。

我们证明了我们提出的方法：

（2）对目标和场景进行泛化
（3）只需要少量微调，就可以推广到真实机器人场景（模型是在仿真环境中进行训练）
（4）可以进行端对端的训练，不需要特征工程，框架之间的特征匹配和环境的三维重建

I. INTRODUCTION
机器人技术中，许多任务都涉及到与物理环境或对象的交互。我们需要了解agent的“动作”与由于操作而引起环境的“变化”之间的相关性和因果联系。自20世纪70年代以来，人们一直在尝试建立一个能够理解这种联系的系统。近年来，随着深度学习的兴起，基于学习的方法得到了广泛的普及。
在本文中，我们关注的问题是如何在空间中导航，从而实现只使用视觉输入来找到给定的目标。成功的导航需要学习动作和环境之间的关系。这个特点使得任务非常适合深度强化学习(DRL)算法。然而，一般DRL算法思路是：策略的学习只依赖于当前状态，而导航的目标被隐式地嵌入到模型参数中。因此，有必要为一个新的目标学习新的模型参数。这是有问题的，因为训练DRL agent需要昂贵的计算成本。
Fig 1 ：我们的深度强化学习模型的目标是：用最少的步骤导航到一个视觉目标。我们的模型将当前的观测和目标图像作为输入，并在3D环境中生成一个动作作为输出。我们的模型学习如何在场景中导航到不同的目标并且不需要重新训练。
为了获得更高的适应性和灵活性，我们引入了目标驱动模型。我们的模型将可视化的目标作为输入。因此，我们可以避免对每一个新目标进行重新训练。我们的模型学习了一种策略，它共同输入目标和当前状态。从本质上说，一个agent采取下一个动作时，条件是它的当前状态和目标，而不仅仅是它的当前状态。因此，不需要为新的目标重新训练模型。我们依赖的一种关键直觉是：不同的训练集分享信息。例如，agents在训练阶段探索共同的路线，同时被训练去寻找不同目标。各种各样的场景也有相似的结构和统计数据（例如，冰箱很可能靠近微波炉）。简而言之，我们利用了这样一个事实：为其他目标训练的模型学习新的目标将会更容易。
不幸的是，在实际环境中训练和定量评估DRL算法常常是乏力的。其中一个原因是：在物理空间中运行系统会耗费时间。此外，通过常见的图像数据集收集技术在真实环境中获取大规模的动作和交互数据很麻烦。为此，我们开发了第一个具有高质量3D场景的模拟框架，称为“交互之家”(AI2-THOR)。我们的模拟框架使我们能够收集大量的”不同环境下的动作和反馈“的视觉观察。例如，agent可以自由导航(即在各种真实的室内场景中移动和旋转)，并能够与对象进行低水平和高水平的交互(例如，施加力或打开/关闭微波)。
我们对以下任务进行评估: （1）目标泛化（目的：在训练过的场景中，对未使用过的目标进行导航）
（2）场景泛化（目的：在未训练过的场景中，进行导航，寻找到目标）
（3）在现实世界的推广中，我们演示了如何使用一个真正的机器人来导航目标

我们的实验表明，我们在训练数据效率方面超过了最先进的DRL方法。我们还演示了模型的泛化方面。

综上所述，我们介绍了一种新的强化学习模型，它可以推广到新的目标和场景。为了学习和评估强化学习模型，我们用高质量的渲染模型创建了一个模拟框架，以使我们能够看到agent的视觉交互。我们还演示了真正的机器人导航，针对现实世界，对我们的模型进行了少量的微调。

II. RELATED WORK

注意，我们的方法不是基于特征匹配或三维重建。此外，我们的方法不需要监督训练来识别不同的地标。
强化学习(RL)已被广泛应用。[25]提出了一种用于四足机器人运动的策略梯度RL方法。[26]讨论学习电机原语的策略梯度方法。[27]提出一种基于单眼照相机的障碍检测方法。[28]将强化学习应用于自主直升机飞行。[29]用RL自动采集地图的数据。[30]提出了一种基于内核的大规模增强学习算法。[31]使用RL在雅达利游戏中做决策。与这些方法相比，我们的模型使用深度强化学习来处理高维感官输入。
最近，将深度学习方法与RL相结合的方法显示出了良好的效果。[2]提议用深度Q-networks玩atari游戏。[32]提出了一种新的基于蒙特卡罗树搜索与深度RL融合的搜索算法，在围棋比赛中击败世界冠军。[3]提出了一种深度RL方法，在这种方法中，深度网络的参数由环境中agents的多个异步副本更新。[1]使用深度RL方法直接将原始图像映射到机器人电机的扭矩。我们的工作涉及到比ATARI游戏更复杂的输入，或者在有限背景下比如实验室环境中拍摄的图像。此外，我们的方法可以推广到新的场景和新的目标，而之前提及的那些方法需要重新训练，以适应新的游戏，新的规则。
Fig 2. 我们的框架和其他模拟学习框架的截图
现在很多人在努力研究新的学习方法，可以推广到不同的目标任务。与UVFA类似，我们的模型直接将目标目的地作为输入，不需要再训练。
最近，物理引擎已经被用来从图像中学习真实世界的场景。在这项工作中，我们证明了一个在模拟世界中训练的模型可以推广到真实的场景。

III. THE AI2-THOR FRAMEWORK

为此，我们提出了交互之家(AI2-THOR)框架，它是通过将物理引擎(Unity 3D)和深度学习框架(Tensorflow)集成在一起设计的。想法是：把物理引擎渲染的图像输入到深度学习框架中，深度学习框架发出一个基于视觉输入的控制命令，并将其发送回物理引擎中的agent。[39]，[40]，[44]，[42]，[41]也提出了类似的框架，但我们的框架的主要优势如下: (1) 物理引擎与深度学习框架直接通信(与[38]中物理引擎与控制器分离相反)。直接通信很重要，因为来自环境的反馈可以立即用于在线决策。
(2) 尽量模拟真实世界图像的外观分布。例如，[39]在Atari游戏中工作，这是2D环境，在外观上是有限的。[43]是一组合成的场景，它们不像照片一样真实，也不遵循现实世界的场景在灯光、物体外观、纹理和背景混乱等方面的分布。这对于使我们能够推广到真实世界的图像是很重要的。

为了为我们的框架创建室内场景，我们为艺术家提供参考，以创建一个纹理和光线类似于图像的3D场景。到目前为止，我们已有32个场景，这些场景属于家庭环境中的4类常见场景类型:厨房、起居室、卧室和浴室。平均每个场景包含68个对象实例。

使用物理引擎建模的世界的优点是它具有高度可扩展性(在真正的房子里训练机器人不容易获得可扩展性)。此外，训练模型可以更便宜和更安全（机器人的动作可能会损坏物体）。使用合成场景的一个主要缺点是真实世界的细节被低估了。然而，图形社区的发展使我们有可能对真实世界的外观和物理性质进行更丰富的表示，缩小现实世界和模拟之间的差异。图2提供了框架中的场景与其他框架的示例场景的定性比较。如图所示，我们的场景更好地模拟了真实世界场景的外观属性。在这个工作中，我们关注导航，这个框架可以用于更细粒度的物理交互，例如应用力，抓取，或者对象操作，例如打开和关闭微波。图3显示了一些高层交互的示例。我们将提供框架的Python api，让AI agent与3D场景实现交互。

IV. TARGET-DRIVEN NAVIGATION MODEL

A. Problem Statement
我们的目标是：找到将agent从当前位置移动到由RGB图像指定的目标位置的最小长度序列。我们开发了一个深度强化学习模型，以当前观测RGB图像和目标RGB图像作为输入。模型的输出是一个3D的动作，比如向前移动或右转。注意，模型学习了从2D图像到3D空间中的动作的映射。
Fig .3 我们的框架为AI agent提供了一个丰富的交互平台。它支持物理交互，如推动或移动对象(第一行)，以及对象交互，如更改对象的状态(第二行)。

B. Problem Formulation

这种限制对于移动机器人的导航来说是个大问题。当将DRL应用于多个导航目标时，需要网络针对每个目标进行重新训练。在实践中，遍历一个场景中的每个目标是行不通的。由于缺乏泛化性能，在导航新的目标时，我们必须重新训练模型。因此，最好是有一个单一的导航模型，它学习导航到新目标的同时无需重新训练。为了实现这一点，我们把任务目标(即导航的目标)作为模型的输入，而不是将目标植入模型参数中。我们将这个问题称为目标驱动的视觉导航。从形式上讲，目标驱动模型的学习目标是：学习一个随机的策略函数p，它有两个输入，一个表示当前状态st，一个表示目标g，并在动作空间p(st;g)上产生一个概率分布。在测试中，移动机器人从策略分布中不断地采取行动，直到到达目的地。这样，行动既以当前状态为条件，也以目标为条件。因此，不需要对新目标进行重新训练。
Fig 4. 我们的孪生actor-critic模型的网 1a4bc 络架构。括号中的数字表示输出维数。绿色方块中的层参数被共享。ResNet-50层（黄色）是预先在ImageNet上训练的，并在训练中固定。

C. Learning Setup

1) 动作空间：

2) 观察与目标 : 观察和目标都是由agent的RGB摄像机在第一人称视图中拍摄的图像。使用图像作为目标描述的好处是可以灵活地指定新的目标。给定目标图像，任务目标是导航到目标图像的位置和视点。
3)奖励设计 : 我们关注于最小化导航目标的轨迹长度，尽管也可以考虑其他因素，比如能源效率。我们只在任务完成时提供一个目标达到的奖励（10.0）。为了鼓励更短的轨迹，我们增加了一个小的时间惩罚(-0.01)作为即使完成任务的奖励。

D. Model

其中，u是模型参数，st是当前观测的图像，g是导航目标的图像。当目标g属于有限离散集时，pi可以看作是一个混合模型，其中g为每个目标索引了正确的一组参数。然而，现实世界目标的数量通常是无数的(由于许多不同的位置或高度可变)。因此，最好是学习一个将目标转换为嵌入空间的投影。这样的投影可以使知识在这个嵌入空间中传输，从而使模型能够泛化到新的目标。
导航决策要求对当前位置和目标位置之间的相对空间位置进行理解，以及对整体场景布局进行感知。我们开发了一个新的深度孪生actor-critic网络来捕捉这样的直觉。图4展示了我们的目标驱动导航任务的模型。总的来说，网络的输入是两个图像，分别表示agent的当前观测和目标。我们对当前位置和目标之间的空间安排进行推理的方法是：将它们投射到相同的embedding空间中，在那里它们的几何关系被保留。孪生网络是一种用于判别embedding learning的双流神经网络模型。我们使用两个权重共享的孪生层来将当前状态和目标转换为相同的嵌入空间。来自两个embeddings的信息被融合在一起形成一个联合表示。这个联合表示是通过特定场景层（参见图4）。特定场景层的作用是：捕获对导航任务至关重要的场景的特殊特征(例如，房间布局和对象安排)。最后，该模型生成的策略和价值输出类似于advantage actor-critic模型。在这个模型中，所有场景的目标共享相同的通用的孪生层，并且一个场景中的所有目标共享相同的特定场景层。这使得模型更好地在目标和场景中泛化。

E. Training Protocol

传统的RL模型对分离的单个任务进行学习，导致目标更改缺乏灵活性。由于我们的深度孪生表演评论家网络共享不同任务的参数，它可以从同时学习多个目标中获益。A3C是一种强化学习模型，它通过并行运行多个训练线程副本来学习，并以异步方式更新一组共享的模型参数。事实证明，这些并行的训练线程相互稳定，在视频游戏领域达到了最先进的性能。我们采用的是类似A3C的训练程序。然而相比于运行单个游戏的副本，每个线程都使用不同的导航目标运行。因此，梯度从执行者-批评家输出反向传播回较低层次层。特定场景层由场景中导航任务的梯度更新，而通用的孪生层则由所有目标更新。

F. Network Architectures

孪生层的下半部分是ImageNet预训练的ResNet-50（截断了softmax层），在224*224*3RGB图像上产生2048-d特征。我们在训练时冻结这些ResNet参数。我们将4个历史帧的特征连接起来，以解释agent过去的动作。来自两个流的8192-d输出矢量被投影到512-d嵌入空间中。融合层对状态和目标进行1024-d串联嵌入，生成512-d的联合表示。这个矢量被进一步传递到两个全连接的特定场景层，产生4个策略输出（动作的概率）和一个单值输出。我们共享学习速率为7×10−4RMSProp的优化器，从而训练了这个网络。

V. EXPERIMENTS

A. Navigation Results
我们在Tensorflow中实现我们的模型，并在Nvidia GeForce GTX Titan X GPU上进行训练。我们遵循Sec中描述的x训练协议。IV-E用100个线程训练我们的深度孪生演员-批评家模型(见图4)，每个线程学习不同的目标。在所有线程上完成100万个训练帧大约需要1.25小时。我们将性能表示为从随机起点到达目标所需的平均步数(即平均轨迹长度)。从我们数据集中的20个室内场景中随机抽取100个不同的目标，测试了导航性能。我们将最终的模型与启发式策略、标准深度RL模型以及模型的变体进行了比较。我们选取比较的模型是: 1)随机漫步：是最简单的导航启发式算法，在这个基线模型中，agent在每个步骤中随机抽取四个动作中的一个。
2)最短路径：为导航模型提供上限性能。当我们用固定的步长将步行空间离散(见IV-C小节)时，我们可以
计算从起始点到目标点的最短路径。注意，对于计算最短路径，我们需要能访问环境的完整地图，而我们系统的输入只是一个RGB图像。
3)A3C ：是一个在Atari游戏中获得最先进的结果的异步优势的角色-批评家模型。实验结果表明，使用更多的线程可以提高训练中的数据效率。因此，我们在两个设置中评估A3C模型，其中我们使用1个线程和4个线程来为每个目标进行培训。
4)One-step Q ：是Deep Q-Network的一种异步变体
5)目标驱动的单一分支：是我们的深度孪生模型的一个变体，它没有特定于场景的分支。在这种情况下，所有目标将使用和更新相同的场景特定参数，包括两个FC层和策略/值输出层。
6)目标驱动的final ：是我们在IV-D部分引入的深度孪生演员-批评家模型。

对于所有的学习模型，我们展示他们在100M帧(所有线程)训练后的表现。性能是通过所有目标的平均轨迹长度(步数)来衡量的。当某个agent到达目标时，或者在完成10,000步之后，该episode就结束了。对于每个目标，我们随机初始化agent的起始位置，并评估10episode。结果在表i中列出。

我们用图5中的学习曲线分析了几个深度RL模型的数据效率。Q-learning的收敛速度很慢。A3C优于Q-learning;另外，将每个目标的学习线程数量从1增加到4，提高了学习效率。我们提出的目标驱动导航模型在100M帧的训练中明显优于标准深度RL模型。我们假设，这是因为跨目标的权重共享计划和异步训练协议都有助于学习可推广的知识。与此相反，专用的RL模型的数据效率较低，因为在不同的场景或目标之间没有直接的共享信息的机制。最终模型的平均轨迹长度是单个分支模型的三倍。它证明了特定场景层的使用是合理的，因为它捕获了场景的特定特征，这些特征可能在不同的场景实例中有所不同。

Fig .5 训练数据效率。与先进的A3C方法相比，我们的模型在100M训练帧后学习了更好的导航策略。

Fig .6 t-SNE在客厅的场景中嵌入观察。我们在投影的二维空间中突出了4个观察示例，以及它们在场景中的对应位置(右侧的鸟瞰图)。从图中可以看出，我们的模型在保持相对空间布局的同时，也学会了观察嵌入。

为了理解模型学到了什么，我们检查了由通用的孪生层学到的嵌入。图6显示了从四个不同方向不同位置观测得到的嵌入向量的t-SNE可视化。我们观察到这些嵌入向量的空间排列与其对应的t-SNE投影之间显著的空间对应关系。因此，我们假设模型能够在保持图像空间结构的同时，将观测图像投射到嵌入空间中。为了验证这一假设，我们比较了成对的嵌入和它们对应的场景坐标的距离的距离。皮尔逊相关系数为0.62,p值小于0.001，说明嵌入空间保留了观测原始位置的信息。这意味着模型学习了环境的大致地图，并且具有对这张地图进行本地化的能力。

B. Generalization Across Targets

Fig 7. 目标泛化。每个直方图组都展示了具有一定数量的训练目标的新目标导航成功率。每组中的4个条表示训练后的目标和新目标之间的邻接对泛化性能的影响。
我们取数据集中最大的10个场景，每个场景有15个目标。我们使用目标驱动模型逐步增加训练目标的数量(从1、2、4增加到8)。所有的模型都经过20M帧的训练。在测试期间，我们为10个新目标分别运行100 episodes。这些新目标是从一组距离最近的训练目标有固定距离(1、2、4和8步)的位置随机选择的。结果如图7所示。我们使用成功率(小于500步的轨迹百分比)来衡量性能。我们选择这个指标是因为我们的模型在新目标上的双极性行为——它要么快速到达新目标，要么完全失败。因此，这个指标比平均轨迹长度更有效。在图7中，随着我们增加训练目标的数量（x轴），我们观察到一个持续的成功率上升的趋势。在每个直方图组中，训练后的目标与新目标的邻接率呈正相关。结果表明，该模型对训练目标周围的邻近区域的了解比对远处的区域更清楚。

C. Generalization Across Scenes

Fig .8 场景泛化。我们比较了将训练好的导航模型应用于不可见场景的数据效率。随着经过训练的场景实例数量的增加，对特定场景层的微调变得更快

D. Continuous Space

空间离散消除了对复杂系统动力学的处理，如电机控制中的噪声。在本节中，我们给出了经验结果:相同模型能够应对更具挑战性的连续空间。为了说明这一点，我们在一个大型客厅的场景中，训练了同一个目标驱动模型，我们的目标是通过一扇门到达阳台。我们使用与之前相同的4个动作(参见IV-C小节);然而，agent的移动和转弯是由物理引擎控制的。在这种情况下，该方法应该显式地处理力和碰撞，因为agent可能会被障碍物阻止或沿着重物滑动。虽然这个设置需要更多的训练帧(大约50M)来训练一个目标，但是相同的模型平均需要15步能到达门，而随机代理平均需要719步。我们在视频中提供了样本测试片段。

E. Robot Experiment

Fig 9. 机器人实验设置。我们的实验是在一个SCITOS移动机器人上进行的。在左边，我们展示了SCITOS机器人的图片。在右边，我们展示了测试环境和一个我们用来评估的目标(微波)。
我们在场景中的28个离散位置上训练我们的模型(不允许后退动作)，这些位置在每个维度上相距大约30英寸。在每个地点，机器人用它的头部摄像机拍摄4张RGB图像(间隔90度)。在测试过程中，机器人会根据模型的预测进行移动和转弯。我们用两个目标对机器人进行评估：门和微波炉。虽然该模型是在离散空间上训练的，但它对随机起始点、噪声动态、变步长、光照变化和对象布局等具有鲁棒性。示例测试集在视频中提供。由于真实场景的规模较小，这三个设置都收敛到近乎最优的策略。然而，我们发现从模拟到真实数据的传输和微调参数是这三种设计中最快的融合方式，比从头开始要快44%。这为模拟在现实世界的交互作用提供了支持性的证据，并展示了通过少量的微调从模拟到真实图像的可能性。

VI. CONCLUSIONS

最先进的DRL方法有一些限制，使其无法应用到实际的设置中。在这项工作中，我们已经解决了这些限制。我们解决了目标和场景之间的泛化问题，与最先进的DRL方法相比，提高了数据效率，并提供了AI2-THOR框架，支持廉价高效的动作和交互数据收集。
我们的实验表明，我们的方法对模型的端到端训练中没有使用的新目标和场景进行了泛化。我们还展示了与最先进的DRL方法相比，我们的方法收敛于更少的训练样本。进一步证明了该方法在离散域和连续域都有效。我们还展示了一个经过模拟训练的模型，可以用少量微调来适应真实的机器人。我们提供的可视化显示我们的DRL方法隐式地执行本地化和映射。最后，我们的方法是可以端到端训练的。与常见的视觉导航方法不同，它不需要显式的特征匹配或环境的三维重建。
我们未来的工作包括在我们的框架中增加高质量3D场景的数量。我们还计划在具有较长距离和动态变化的环境中评估我们的模型，并构建模型来学习框架中的物理交互和对象操作。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航