您的位置：首页 > 其它

自监督学习（十六）Transitive Invariance for Self-supervised Visual Representation Learning

2020-06-26 04:28 627 查看

Transitive Invariance for Self-supervised Visual Representation Learning

Introduction
Method
Inter-instance Edges via Clustering
Intra-instance Edges via Tracking
Learning with Transitions in the Graph

Introduction

这篇文章的作者就包括何凯明，文章的思路和Contrast Loss的思路很像，就是保证网络对于相似图像提取出出来的特征要尽可能相近，对于相差较大的图像提取的特征要尽可能远离。至于相近图像和相异图像如何确定呢，作者提出了一种基于图的方法（感觉这个有炒概念的嫌疑，实际上是用聚类和跟踪来做的）。论文地址。

Method

作者从视频数据中截取图像切片，之后将图像切片分为两种类型，第一种是inter-instance，不同实例但是具有相同的角度或者场景；第二种是intra-instance，相同的实例但是可能角度场景等不同。作者认为这两类在网络中都应该具有相似的特征。

为了区分出这两种切片，作者提出了一种基于图的方法，将切片作为图中的节点，然后对应以上两种类型，就会有两种边，如图所示：

这两种边的确定方式下面会介绍

Inter-instance Edges via Clustering

作者首先训练自监督学习网络，这里训练的网络不是最终的结果，这里的网络是为了提取一个初步的特征，用于聚类确定Inter-instance Edges。自监督网络这里使用了自监督学习（三）Unsupervised Visual Representation Learning by Context Prediction中介绍的方法。之后利用pool5层输出的特征对图像切片进行聚类，这里采用了层次聚类的方法，确定Inter-instance Edges。

Intra-instance Edges via Tracking

这里作者是采用了视频中不同帧的数据确定Intra-instance Edges。

Learning with Transitions in the Graph

假设一个节点的集合是{A,B,A’,B’}，其中<A,B>之间是inter-instance edge连接的，而<A,A’>和<B,B’>是通过intra-instance edge连接的，那么<A,B’>、<A’,B>和<A’,B’>经过网络都应该获得相似的特征。这个关系如图所示：

在实际的操作中，作者构建了一个三输入的孪生网络，每次接受三个输入，如下图所示：

<XXX,X+X^+X+>表示inter-instance或者intra-instance连接的图像，这里成为正样本。而X−X^-X−是与他们都没有连接关系的样本，表示负样本。网络训练的损失函数如下：

这里，D就是表示两个样本之间的距离，
X−X^-X−在这里可以理解为一个第三方变量，或者理解为中间状态等，总之是因为只限制XXX和X+X^+X+会导致网络提取出固定不变的特征，所以需要第三方的输入进行约束。

Experiments

作者在Voc07上进行了检测的实验，效果不错。而且在COCO数据集上的实验，已经非常接近ImageNet的效果了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航