您的位置：首页 > 其它

【论文翻译】ZERO-SHOT VISUAL IMITATION

2018-11-16 10:45 204 查看

摘要：目前主导范式依旧是依靠“专家行为”的强监督学习。我们追求一种无监督学习的模式来探索世界，并把经验提炼成目标导航策略，并具有“前向一致性损失”。策略在学习到了一组图像序列后开始模仿专家的行为。我们提出“zero-shot”方法：agent在训练期间无法接触到专家的行为。我们用了两个真实世界的实验来评估“zero-shot”：用Baxter-robot 做复杂绳索操作&用TurtleBot在新办公环境导航。通过在VizDoom环境的进一步实验，我们证明：更好的探索机制可以学习性能更好的策略。

1 .INTRODUCTION
“对专家演示进行模仿”指的是：“从原始感官输入来学习如何执行任务”的强大机制。当前主导范式是：人工移动or远程控制机器人来执行任务。专家在训练期间为任务提供多个这样的演示，同时以agent的视角产生成对的“observastion-action”数据。agent根据这些数据学习策略。这种依靠人工的强监督方法对专家来说很无聊乏味。并且每次机器人学习新任务之前，都需要专家提前做演示（手把手）。
取而代之的，是一种通用的方法：专家只需要以视频或者图片序列的方式给出环境的observation。agent根据视频自己推断出如何行动。在心理学中，这被称为观察学习。尽管有难度，但是这很有趣，毕竟通过这样的方式，专家更容易演示很多任务给agent。
对于一个没有任何先验知识的agent来说（除了最简单的情况外）仅仅通过观看演示来模仿一项任务是很困难的。问题来了：想要成功的模仿，agent应该拥有什么样的先验知识呢？人们做了许多工作：人工预定义一些“一定会从observation中推断出的状态”。然后agent根据这些状态来执行任务。不幸的是，计算机系统无法准确估计这些状态变量。
本篇论文，我们着力于一个agent在无监督的情况下探索环境，并把经验数据提炼成目标导向的策略。我们的agent通过一个函数预测一个从当前observation到goal的动作序列。我们称这个函数为goal-conditioned skill policy (GSP)。GSP通过这样的自监督学习方式：把agent在探索过程中到过的states标记为goal，把agent执行过的action标记为targets。在一个实例中，给出目标的observations，GSP可以推测出如何到达目标，从而一步步的完成模仿专家的任务。
GSP的一个重要挑战是：不同states之间往往存在多条路径。我们使用forward consistency loss（前向一致性损失）来解决这个问题，这样做的原因是：“于大多数任务来说，实现目标比如何实现更重要”。为了实现这一点，我们首先学习这样一个前向模型：输入action和当前observation，输出下一个observation。我们使用前向模型的输出和下一个状态的真实observation的差分作为损失函数来训练模型。这种损失函数的效果是：对于一些采取了不同action但是到达了相同observation的情况，此时agent不会受到惩罚。考虑到达到不同目标需要不同的步骤数，我们提出：加入目标识别器（确定当前目标是否达到），与前向模型共同来优化GSP。GSP架构图，见图1。
我们给提出的方法起名为zero-shot是因为，agent在训练阶段和任务示范阶段都不接触到专家的action。相比之下，近期关于 one-shot imitation learning的研究在训练期间都需要充分的action知识和大量的专家示范。总的来说，我们提出的方法：（1）在学习过程中不需要任何外在奖励或专家监督（2）只在推断过程中需要示范（3）示范仅限于视觉的observation，而不是state-actions。总是，我们的agent不是通过模仿来学习，而是学会模仿。
我们用“TurtleBot办公室导航”和“Baxter执行绳索操纵任务”来在真实世界评估我们的工作。结果显示：我们提出的前向一致性损失在“打结”这个复杂任务上，准确率从36%提升到了60%。在导航试验中，我们让机器人在部分可见的办公室四周行驶，并且表明GSP可以推广到没见过的环境。此外，通过在VizDoom环境中进行导航实验，我们发现，在学习GSP的过程中，相比于使用随机探索，使用curiosity-driven的探索策略可以更准确的模仿演示。总体而言，我们的实验表明，前向一致的GSP可以用来模拟各种任务，而无需做出特定于环境或任务的假设。

2 .LEARNING TO IMITATE WITHOUT EXPERT SUPERVISION

S : {x1,a1,x2,a2, ...... xT } 是agent使用策略a = πE(s)探索环境时生成的“observations--actions对”。探索得到的数据用来学习GSP，具体方法是：输入为(xi,xg)，输出为动作序列（aτ : a1,a2...aK) ，动作序列从当前observation xi 到达目标observation xg 。其中，aτ =π( xi , xg ; θπ )。xi，xg是从S从采样得到的。

xi ，xg从S中采样。行动的步数K也是从模型中推断出来的。我们把策略π 用参数为θπ 的深度网络表示，目的是表达observation到action的复杂映射。π可以看做是逆动力学模型的多步衍生物，或者对应于通用值函数的一个策略。注意，xg不一定是任务的最终目标，也可以是一个中间子目标。
把需要模仿的任务以图像序列的形式提供—D : {x1d , x2d , ..., xNd }，专家演示任务的同时，这个序列被记录。序列在时间上可以是暂时密集的也可以是稀疏的。agent通过来模仿序列D来学习策略GSP-π。agent起始位置在x0，依据策略π(x0,x1d;θπ)来选择第一个动作。执行策略预测出的动作后，得到的observation称为x′0。因为接近 x1d 可能需要执行多个action，agent会循环的查询目标识别网络来确认当前observation是否接近目标。如果当前observation和目标不符，agent会执行动作 a = π( x′0 , x1d ; θπ )。上述过程重复进行，直到目标识别器显示当前observation已经接近goal，或者已经到达步数值上限。当agent接近x1d后，agent再把目标设置为x2d ，并且重复这个过程。当被模仿序列中的所有observation都被访问过之后，agent停止。
注意：上述方法中专家不需要向agent传达“哪一个action应该被采用”。接下来的部分，我们会描述：如何学习GSP / 前向一致性损失 / 目标识别网络，以及一些baseline方法。
2.1 LEARNING THE GOAL-CONDITIONED SKILL POLICY (GSP)
我们先介绍”one-step-GSP“，接下来再把他拓展到”variable length multi-step skills“。one-step版本的轨迹形式是：（xt,at,xt+1)。策略aˆt= π(xt,xt+1;θπ) 是由最小化标准交叉熵损失函数 L(at,aˆt) = p(at| xt, xt+1)*log(aˆt) 得到的。其中，aˆt是预测出的动作分布。尽管我们没有接触真实的动作分布，我们从探索阶段中抽样从而对真实动作分布at进行经验近似。为了最小化交叉熵函数，通常把p假设为一个在at处的狄拉克δ函数。但是，当p就是高维且多路径（多种选择）的时候，这个假设就不成立了。如果我们在假设p为δ函数的函数下去优化神经网络，会出现这样的情况:“同样的输入对应不同的优化目标”，这导致了梯度方差很高，神经网络难以学习。多路径问题之所以出现，是因为我们的问题中有许多actions可以导航到相同的goal。多路径的问题很重要，因为在轨迹越长的时候，从起点到终点的可行路径越多。此外，需要大量的样本才能获得“高维多路径的动作分布”的较好的经验估计。

2.2 FORWARD CONSISTENCY LOSS

【注意看，上一段中提到的：“根据xt和aˆt得出xˆt+1，然后利用xˆt+1和xt+1的distance来训练模型”。这意味着我们需要有一个模型，模型输入agent当前的observation xt和要采取的动作 at，输出接下来会观测到的observation-xt+1。】
“如何操作前向一致性损失”这个问题还没彻底解决，原因有二：(1)我们需要一个良好的正向动力学模型，该模型可以可靠地预测给定当前观测状态下的动作效果；(2)这种动力学模型应该是可微的，以便使用状态预测误差训练GSP。如果已知正向动力学的解析公式，这两个问题都可以解决。
很多时候，尤其是把状态表现为图像的时候，无法得到正向解析模型。本文中，我们从数据中学习基于图像的前向动力学模型 f ：x̃t+1 = f( xt , at ; θf )。xˆt+1 = f( xt , aˆt ; θf ) 是执行“策略π预测出的动作”得到的状态。由于前向模型是从数据中学习到的，并且黑盒难以从内部理解分析，所以前向模型存在这么一个问题：agent处于xt时，在现实世界中执行 at 和 aˆt按理得到的应该得到相同的observation。但是x̃ t+1（基于正向动力学模型，输入at，得到的observation）和 xˆt+1（基于正向动力学模型，输入aˆt，得到的observation ）并不相同。我们额外添加了我们给loss-function添加一些部分。修改完的loss-function如图所示：
第一项保证：前向模型f能够解释真实的状态变换(xt, at, xt+1)。第二项保证前向一致性。同时学习θπ和θf 是很不稳定的，因为前向模型f在开始时性能极差，给策略π的梯度更新带来很大的噪声。为了解决这个问题，我们先只使用第一项来预训练一个前向模型，接下里阻断梯度流来单独训练GSP，最后联合微调。
泛化到特征空间的动力学：过去的工作已经证明了“从特征空间中建立前向动力学模型比从observation中建立的模型要更加的鲁棒，并且泛化性能更好。于是我们拓展我们的GSP方法：基于observation xt, xt+1 的特征表示φ(xt), φ(xt+1)进行动作的预测。这个特征表示从动作预测的自监督任务中学习。在计算前向一致性损失的时候，不再使用原始的observation，而是特征空间φ。基于特征空间的多步目标优化如等式(4)所示。
泛化到多步GSP ：我们用一个直接的方法把单步GSP拓展到变长动作序列：建立一个拥有逐步前向一致性损失的多步GSP模型πm。GSP-πm维护一个系统内部的循环记忆，并且输出基于当前observation预测的动作。每个时间步计算一次前向一致性损失，并且和动作预测loss-function一起，针对整个轨迹优化。最终，基于特征空间动力学的多步优化目标如下所示：
φ(.)表示一个具有参数θφ的神经网络。多步GSP需要的步数是可变的，取决于目标识别器。注意，若φ(x)=x,那么该目标就直接简化为之前使用observation作为输入的模型。我们在VizDoom 3D导航中分析了基于特征空间的预测，并在绳索实验和office实验中使用observation空间。
多步前向一致性GSP-πm通过这样的方法实现：使用一个循环神经网络，每一时间步的输入为:

(1) 当前状态xt和目标状态xT的特征表示：φ(xt) and φ(xT )
(2) 上一个时间步的动作at-1
(3) 循环单元的内部隐藏层表示ht-1
(4)当前预测的动作结果aˆt 。
注意，每个时间步输入的之前预测的动作at-1可能是冗余的，因为隐藏层的潜在的表示已经在维护轨迹历史了。尽管如此，显示地为这段轨迹历史建模是有益的。这个公式等效于建立了一个联合诸多动作的自回归模型：“每个时间步计算P(at|x1,a1,...at−1,xt,xg)”。未来还可以考虑继续努力建立一个前向多步模型。

2.3 GOAL RECOGNIZER

我们将目标识别作为二分类问题：给出当前observation xi 和目标observation xg，判断xi和xg是否接近。因为缺乏对目标的专家监督结果，所以我们用agent的探索经验来随机的绘制目标的observation（经实验是可行的）。在探索过程中，我们认为那些离目标只有几个action的observation是正样本（接近的），而距离目标的action数量超过某个阈值的observation是负样本（远离的）。我们使用标准交叉熵损失来训练目标分类器。与GSP一样，我们的目标识别器也是基于目标的，并对目标进行泛化。我们发现，“训练一个独立的目标识别网络”始终胜过“给动作空间增加停止动作”的方法。在Sermanet同步进行的工作中，还探索了利用时间临近性作为监督的特征学习方法。

2.4 ABLATIONS AND BASELINES

接下来的实验会评估比较以下方法：(1) 经典方法:在视觉导航中，我们尝试比较最先进开源的经典方法，即ORB-SLAM2和OPEN-SFM。(2) 逆模型：Nair利用逆动力学模仿绳索任务。我们用视觉方法做了比较（3）GSP-NoPrevAction-NoFwdConst就是循环GSP没有先前动作历史和前向一致性损失。（4）GSP-NoFwdCons指具有先前动作历史但是没有前向一致性损失。（5）GSP-FwdRegularize指的是前向预测只用来对GSP的特征进行正则化，但在预测动作时不起作用。这样做的目的是：只把前向模型作为特征调节器。（6）GSP指的是完整的模型。接下来讨论实验和一些baseline方法。

3 . EXPERIMENTS

3.1 ROPE MANIPULATION
让机器人操纵非刚性可变形物体是一个挑战。即使是人类也得看着实验或者收到清晰的指令才能完成绳索任务。我们进行这样一个实验：机器人只通过观察人类的演示来实现操纵绳索。我们使用Nair et al. (2017)的数据：baxer操作绳索。探索过程中，机器人和绳子交互，使用一个pick and place原语，选择绳索上的一个随机点，并以随机选择的长度和方向替换它。收集60K的形如(xt , at , xt+1 )的交互动作对，用来训练GSP。探索阶段中没有打结这一环节，所以GSP必须泛化并能模仿人类的演示。
度量：模型的表现是根据：机器人得到的绳索状态和人类演示的绳索状态之间的non-rigid registration cost衡量的。matching cost是用thin plate spline robust point matching technique衡量的(TPS-RPM)。

3.2 NAVIGATION IN INDOOR OFFICE ENVIRONMENTS

（1）GOAL FINDING : 我们首先测试由Turtlebot学习到的GSP：只给一张目标图片，检测机器人是否能找到同在一间房的目标。我们将Turtlebot保持在离目标位置大约20-30步的距离，使当前的observation和目标的observation没有重叠，如图4所示。我们在不同楼层的室内办公环境中测试机器人。我们判断机器人在离目标很近的地方停下来是成功的，如果它撞到家具上或者在200步内没能达到目标就会失败。由于初始observation和目标observation没有重叠，因此不能使用依赖特征匹配等经典技术来推断执行的action。因此，为了达到目标，机器人必须探索它周围的环境。我们发现我们的GSP模型在到达目标位置时优于基线模型。我们的模型学会了原地旋转，直到遇到了当前observation和目标observation之间的重叠。结果如表1所示，视频可在网站1下载
（2）VISUAL IMITATION ：之前的段落中，机器人可以在同一个房间寻找到目标。然而，我们的agent无法达到遥远的目标，如在其他房间设立一个目标。在这种情况下，专家可能会传达指令，比如走到门口，向右转，走到最近的椅子上等等。代替语言指令，在我们的设置中，我们提供了一系列地标的图像来传达同样的高级思想。当专家将机器人从起点移动到目标位置时，这些具有里程碑意义的地标图像就被机器人的摄像机拍下来。然而，请注意，专家没有必要控制机器人去捕捉图像，因为我们没有利用专家的动作，而仅仅利用图像。在演示过程中，我们并没有在每次操作之后都记录图像，而是只提供了第五张图像。这种选择背后的基本原理是，我们希望对演示进行稀疏抽样，以最小化代理对专家演示的依赖。这种子抽样(如图5所示)降低了任务复杂性。
我们对两次专家演示（即迷宫演示）进行多次运行评估，机器人应该在迷宫般的路径中导航，并进行循环演示，机器人应该按照演示图像的指示做一个完整的循环。循环演示比迷宫更长，也更困难。相对于演示，我们从不同的起始位置和方向启动agent。每个方向都被初始化，这样演示初始框架的任何部分都不可见。结果如表2所示。当我们对每一帧进行采样时，来自运动的方法和经典结构都可以用于跟踪演示。然而，在五次采样率下，基于筛选的特征匹配方法不起作用，ORBSLAM2未能生成map，而我们的方法是成功的。注意，提供稀疏的地标图像而不是密集的视频，增加了视觉模拟任务的健壮性。特别是，考虑到环境在演示过程中所发生的变化。由于不需要代理逐帧匹配每个演示图像，它对环境的变化就不那么敏感了。

3.3 3D NAVIGATION IN VIZDOOM

Metric 在给定机器人图像序列的情况下，我们展示机器人到达的最大距离的中值。到达的最大距离是agent连续到达的最远地标点的距离，不遗漏任何中间地标。测量达到的最远的地标并不能反映它达到的效率。因此，我们进一步测量agent的效率，即agent所采取的步骤数与人类演示中所显示的步骤数之比，以达到最远的连续地标。
Visual Imitation 这里的任务与真正的机器人导航中的任务相同，在这个任务中，agent接受一个稀疏的图像序列。结果见表3。我们发现好奇心探索相对于随机探索策略，显著提高了所有方法的最终模仿性能。拥有前向正则化的基线GSP模型相比于一致性损失模型最终在新的布局下过拟合。相比之下，我们的前向一致的GSP模型在推广到具有新纹理的新地图方面优于其他方法。这说明前向一致性损失不仅仅是对策略的特征做了正则化。即使基于图像的模型和特征空间模型在训练环境上表现相似，训练前向一致性损失也进一步增强了泛化能力。

5 .DISCUSSION

我们的方法的一个限制是我们需要第一人称视图演示。扩展到第三人称视角将使该方法适用于更一般的场景。另一个限制是，在目前的框架中，我们隐含假设了：专家演示的视觉数据和agent模仿的视觉数据是相似的。例如，当专家在一个场景中的白天进行演示时，而agent需要在晚上模仿，灯光条件的变化可能会导致更糟糕的性能。使GSP对这种变化或其他环境的环境变化进行有效的调整，将对解决实际问题的方法很有意义。另一件需要注意的事情是，在目前的框架中，我们不是从专家的演示中学习，而是简单地模仿他们。研究从专家演示中学习探索环境中更有用的部分是更有趣的。
虽然我们使用一系列图像来提供演示，但是我们的工作并没有对图像进行特定的假设，我们的方法可以扩展到使用正式语言来表述目标。例如,训练后GSP,代替”将一幅图像转换到特征空间φ“，我们可以”学习一个语言指令到这个特征空间映射到变换。

A.2 NAVIGATION IN INDOOR OFFICE ENVIRONMENTS

机器人设置：TurtleBot2 & Kobuk轮式底座 & Orbbec Astra摄像头。动作空间有四个动作：前，左，右，停住。前进的动作大约是10cm的前进平移，转弯动作大约是14-18度的旋转。这些数字因速度而变化。一台强大的车载笔记本电脑被用来处理图像和推断电机指令。对默认的TurtleBot设置做了几处修改:电池底座换成了更耐用的电池，NVIDIA Jetson TK1预装板换成了功能更强大的GigaByte Aero笔记本电脑和配套的便携式充电电源。
自监督数据搜集： 我们设计了一种不需要人工监督的自动数据采集自监督方案。在我们的方案中，机器人首先对四个动作中的一个进行采样，然后是选择动作的次数(即动作重复)。对无op动作的抽样概率为0.05，对其他三个动作的抽样概率为相等。如果选择了no-op操作，则重复1~2次。选择了其他op，则重复1~5次。机器人自主地重复了这个过程，并从一座学术楼的两层收集了230K的互动信息。如果机器人撞到一个物体，它会进行重置操作，首先向后移动，然后以90-270度的采样一个角度，并左右转动。建筑的一个单独的楼层，有明显不同的家具布局和视觉纹理，然后用来测试学习的模型。
实施细节：自监督探索收集到的数据用来训练我们的循环前向一致性GSP。我们的基础架构是用ImageNet预训练的ResNet-50。输入是图像，输出是机器人的动作。正向一致性模型首先经过预训练，然后联合GSP，进行端到端微调。前向模型的权重是0.1，用5e − 4学习率的adam对目标进行最小化。

A.3 3D NAVIGATION IN VIZDOOM

自监督数据搜集：

对于每个场景，我们分别收集5个人工演示，每10个帧采样一次，作为agent的视觉模拟任务的输入。对于每条人类演示路径，我们用50种不同的种子进行评估，agent从一个均匀取样的方向开始。然后，我们获得每种类型环境的250次(50x5次)总运行次数的中位数，并展示agent到达的人工路径百分比的中位数，以及agent到达这一点的时间相对于人工的时间。
在本文中，我们报告了中位数的准确性和中位数的置信区间。由于agent的初始位置相对于视觉演示的位置是随机的，因此由于离群值的原因，平均结果存在较大的方差。因此，中位数的准确度可以得到更可靠的度量。但是，我们在表5中报告了完成的平均结果
ImplementationDetails 训练模型的batch-size为64，Adam学习率为1e-4，每个batch隔5~15个action选一个地标。observation是单通道，48*48。所有的模型都使用了同一个目标识别器，它是在好奇心数据上训练的。对于前向正则器、基于像素的前向一致性模型，基于特征的前向一致性模型的超参数，我们选择了最佳系数{0.01, 0.05, 0.1}。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航