您的位置:首页 > Web前端

Generalizing from a Few Examples: A Survey on Few-Shot Learning论文笔记

2020-04-22 01:59 901 查看

论文地址:https://arxiv.org/pdf/1904.05046.pdf
github地址:无

Motivation

尽管AI在具有充足数据的应用中表现很好,但是缺乏对有限样本的学习能力。为了解决这类问题,提出了小样本学习FSL(Few-Shot Learning, FSL)。这是一篇关于小样本学习的综述。

Outlines

小样本学习的定义

FSL是机器学习的一类问题,其中经验EEE仅包含有限的针对任务T的有标签样本。通常考虑一个NNN-waywayway-KKK-shotshotshot分类问题,其训练集由NNN个类构成,每个类中有KKK个样本。

与一些概念的区别

弱监督学习:在有标签和没有标签的混合数据,或不准确模糊,含有噪声的标签数据中学习最优假设。可以分为半监督学习和主动学习。FSL与此不同,它还包括强化学习,其可将很多其他如多模态,预训练模型,其它域中的数据等作为先验知识,不仅仅局限于弱监督学习中的无标签样本。

不平衡学习:从数据集中学习标签的偏态分布(skewed distribution),需要考虑标签的所有可能情况。相比之下,FSL在训练和测试中只用了几个样本的标签,甚至有时会利用其他标签作为先验知识来学习。

迁移学习:从有大量训练数据的源域和源任务学到的知识转移到训练数据有限的目标域和目标任务。典型的两种学习是Domain adaptation和zero-shot learning。FSL不需要是一个迁移学习问题。当给定的监督信息仅限于直接学习时,FSL需要将先验知识迁移到当前任务中。此时FSL问题就变成了迁移学习。

元学习:通过提供的数据集和元学习者(meta-learner)跨任务提取的元知识来改进新任务的效果。许多FSL方法是元学习方法,使用元学习者(meta-learner)作为先验知识。

核心问题

经验的风险最小化不可靠。由于样本量过少,不能很好地代表数据集的分布,因此在设定的假设空间中估计得到的期望风险不可靠。

分类

基于先验知识解决该问题的模式,作者将小样本学习分为了3类:数据集,模型和算法。进一步分类结果如下图所示:

这里主要工作集中在模型和算法上。

基于模型的工作分类
  • 多任务学习

多任务学习 利用任务间共享的通用信息和每个任务的特定信息,同时学习多个任务。因此可以应用于FSL问题。

根据是否实行参数共享的方式,可将这类方法分为两类,参数共享和参数约束。区别如下图所示:

  • 嵌入学习

嵌入学习将输入xxx映射到嵌入空间zzz中,在这个空间中,可以识别出数据之间的相似度。映射关系或嵌入函数主要由先验知识所学得,这类模型通常用于分类问题。

嵌入学习有以下几个关键部分:函数fff用于将训练样本映射到嵌入空间,函数ggg用于将测试样本映射到嵌入空间,函数sss用于计算嵌入空间中两个嵌入之间的相似度。

模型的示意图如下所示:

根据嵌入的方式,可以分为3类,task-invariant,task-specifc以及两者结合。

  1. Task-specifc为每个数据集D学习一个嵌入函数。这种模型只考虑到了模型的特殊性。

  2. Task-invariant是从外部的一个很大的数据集(不包括实验数据集D)中学习一个嵌入函数。这种方法基于一种假设,如果一个模型可以在嵌入空间中成功区分不同数据,那么它就能够在不需要训练的情况下,很好的作用在数据集D中。

  3. 两者结合。利用了task-specific较好的特殊性,以及task-invariant的泛化能力。

  • 外部记忆学习

外部记忆映射有用的训练样本信息到模型参数中。利用外部记忆学习,直接将需要检索或更新的知识存储在外部记忆中,从而减轻了学习的负担。

模型的示意图如下图所示:

嵌入函数fff是从外部先验知识学习的。当有一个新样本时,从memory空间中提取出与该样本的相似度最高的键值对。然后将键值输入到预测模型中。当memory空间不满时,新的样本都会写入空的记忆中;空间已满时,须设定新的规则以决定新的样本取代或者更新现有键值对。

  • 生成模型

这里的生成模型使用先验知识来估计潜变量的概率分布,从而约束了假设空间的大小。

模型结构一般如下所示:

根据在潜变量代表的信息,现有方法可以分成三种:

  1. decomposable components
    这种方法利用从先验数据中学习到的可分解的各个元件,如人脸识别中的五官等,从中学习各元件与目标类的关系,将其与目标类联结起来。
  2. groupwise shared prior
    该方法利用相似数据类的先验概率分布,将小样本数据分类至若干个对应的相似数据类中,利用类的先验概率分布建模。
  3. parameters of inference networks
    该方法利用现有的深度网络的参数的强特征表征能力来表征新的任务数据,更加高效且降低了对人类知识的要求。典型的包括VAE,GAN等。
基于算法的工作分类

基于算法的工作旨在利用先验知识寻找合适的模型参数,如初始化参数,优化路径等。
根据对先验知识的利用方式不同,可将方法分为:

  • Refine existing parameters
  • Refine meta-learned parameters
  • Learn the optimizer
    这里大多用到了元学习的方式,因此不甚了解,有待以后再学习。

Thoughts

方法比较多,还有待细看一些文章。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
hankeryeah 发布了8 篇原创文章 · 获赞 3 · 访问量 447 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐