您的位置:首页 > 其它

阅读论文:Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

2018-01-09 21:49 513 查看

阅读论文:Suggestive Annotation: A Deep Active Learning Framework forBiomedical Image Segmentation

本篇论文发表在MICCAI 2017上,作者均来自美国圣母大学,Lin Yang, YizheZhang, Jianxu Chen,均为华人,文章标题的中文翻译为:建议性标注:一种用于生物生物医学图像分割的深度主动学习框架。整篇文章也比较简练,主要介绍了其提出的深度主动学习框架的基本结构,而且主要以理论阐述为主,几乎没有多少公式的推导证明,后半部分通过在两个数据集上进行实验,得出在仅使用50%训练数据的情况下也能得到一个较好的训练结果

1、背景知识

近年来深度学习用于生物医学图像分割已经取得了不错的成绩,也有很多研究人员在原有的基础上不断改变网络结构,使分割结果不断得到提升,然而目前困扰大家的一个最严重的问题就是训练数据的不足,现有的公开生物医学图像的数据集有效标注的数据也只是在几十几百的数量级上,跟普通自然图像分类数据集相比仍然相距悬殊。主要原因是对于生物医学图像标注而言专业壁垒高,只有受过训练的生物医学专家才能够标注数据,这使得借助群众的力量来进行标注会相当困难。再就是生物医学图像可能会包含更多的目标示例,会消耗大量的精力。现有的公开数据集也只有非常少量的空间标注。

目前还有有一个问题困扰着大家就是为了训练出一个好的模型,我到底需要多少数据,是越多越好吗,到底有没有一个确切的饱和点?这其实也是这篇文章中主动学习网络研究的一个问题,而这篇文章中作者更侧重于为了获取一个良好的表现什么样的示例需要被标注,作者提出了一个结合全卷积网络和主动学习的深度主动学习框架来提升标注的效率(有效性),使用FCN提供的不确定性和相似度,形成一个包含问题最大集合的广义版本,决定对于标注而言最具有代表性和不确定性的区域。

2、模型结构



主动学习(active learining):在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂。在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数据送到专家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练。这一过程叫做主动学习。

虽然采用主动学习模型能够达到目前为止最好的分割水平,但是该方法是基于预训练的区域提出模型和预训练的图像描述符网络,由于不同的生物医学图像差异巨大,生物医学图像设置中是不容易获取的。

作者利用FCN获取特定领域的图像描述符,并不使用区域建议直接生成分割。概括了其深层主动学习框架的主要思想和步骤。从非常少的训练数据开始,模型迭代地训练一组FCN。 在每个阶段结束时,我们从这些FCN中提取有用的信息(如不确定性估计和相似性估计),以决定下一批要注释的图像。 在获得新的注释数据之后,使用所有可用的注释图像开始下一个阶段。 虽然上述过程似乎很简单,但需要克服几个挑战,以便将FCN集成到这个深入的主动学习框架中,如下所述。

1.       FCN方面的挑战

    首先必须保证网络训练能够足够的快,因此为了使模型训练的更快,使用了批量归一化和残差网络,其次使用bottleneck design,瓶颈设计在保持相同数量特征通道的同时能够显著减少网络的参数。

2.       主动学习方面的挑战

    文章首先证明了如何评估基于自举算法思想FCN的不确定性和如何利用FCN最后层的编码部分来评估图像的相似性,基于这些信息,制定了推荐下一批训练数据的最大集合覆盖问题的广义版本。



3、方法

     Their proposed method consistsof three major components:

(1)   a new FCN, which shows state-of-the-art performance on thetwo datasets used in experiments;一个新的全卷积网络

(2)   uncertainty estimation and similarity estimation of the FCNs;用于评估不确定性和相似度的FCN

(3)   an annotation suggestion algorithm for selecting the most effectivetraining data.一个标注推荐算法

1)       A new fullyconvolutional network



传统的FCN网络为了达到一个较好的性能需要训练好几个小时,为了加快训练,作者把原来的卷积层转化为采用批量归一化的残差模块。在训练初期因为只有很少的标注数据,而网络中又有很多的参数,训练起来会很困难或者效果不是很好,因此作者将网络采用瓶颈设计,瓶颈设计在保持相同数量特征通道的同时能够显著减少网络的参数。

图3估计了不确定性与像素准确性在测试集上的关系。这表明测试准确度和不确定性估计具有很大的相关性

2)       Uncertaintyestimation and similarity estimation

找到最有价值的标注区域的方法就是采用不确定性采样,然而由于深度学习模型对于相同类型的模型往往是不确定的,因此仅仅使用不确定性采样会导致重复选取标注区域。因此需要不仅关注不确定性,还要找出最具有代表性的样本区域。因此需要比较不同图片间的相似度,寻找最具有代表特性的样本。文中作者采用的是bootstrapping算法,基本思想是训练一系列模型,在训练过程中严格限制每个模型仅使用训练集的一个子集进行训练(通过替换采样生成),而且计算这些模型之间的方差。最后的每个训练样本的不确定行通过计算他们所有像素的平均得到。



3)       Annotationsuggestion

根据下面两个特性,标注的区域应该是典型或有代表性的。

1、不确定性。标注区域应该是对于网络而言很难分割的部分;

2、代表性。标注区域需要包含有用的特征或是尽可能多的未标注图像的特征。



    具体的做法是在每个标注建议阶段,从所有未标注的图像中抽取最具有不确定性和代表性的k张图像,由于不确定性是一个更为重要的指标,在步骤一中先抽取前K个不确定性评分最高的图片组成一个候选的子集,再从这个子集中抽取最具有代表性的k张图像。

4、实验结论



作者在两个数据集上对其提出的模型进行了实验,分别是the 2015 MICCAIGland Challenge dataset(85 training images and 80 testing images (60 in Part A;20 in Part B).)和the lymph node data(37training images and 37 testing images).

两个数据集上都表现出较好的性能,在仅使用50%训练数据的情况下能够比目前最好的结果都要优越。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐