您的位置:首页 > 其它

Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

2018-03-16 15:03 507 查看


作者:LinYang 1 , Yizhe Zhang 1 , Jianxu Chen 1 , Siyuan Zhang 2 , Danny Z. Chen 1
1Departmentof Computer Science and Engineering,University of Notre Dame, Notre Dame, IN46556, USA
2Departmentof Biological Sciences, Harper Cancer Research Institute,University of NotreDame, Notre Dame, IN 46556, USA
摘要:图像分割是生物医学中图像分析的一个基本问题,深度学习的最新进展在许多生物医学图像分割基准上取得了很好的结果。然而,由于生物医学图像(不同形态,图像设置,对象,噪声等)的巨大差异,为了在新应用中使用深度学习,通常需要一组新的训练数据。这可能会产生大量的注释工作和成本,因为只有生物医学专家才能有效地进行注释,且图像中的实例往往太多(例如,细胞)来注释。在本文中,我们旨在解决以下问题:用有限的注解(例如,时间)来标注哪些实例以获得最佳性能?我们提出了一个深度积极的学习框架,结合完全卷积网络(FCN)和主动学习,通过对最有效的注释区域提出明智的建议,大大减少了注释的工作量。我们利用FCN提供的不确定性和相似性信息,制定最大集合覆盖问题的广义版本,确定最具代表性和不确定性的注释领域。
使用2015 MICCAI腺体挑战数据集的大量实验和淋巴结超声图像分割数据集显示,使用我们的方法提供的注释建议,是最先进的分割性能可以通过仅使用50%的训练数据来实现。
总结:目前还有有一个问题困扰着大家就是为了训练出一个好的模型,我到底需要多少数据,是越多越好吗,到底有没有一个确切的饱和点?这其实也是这篇文章中主动学习网络研究的一个问题,而这篇文章中作者更侧重于为了获取一个良好的表现什么样的示例需要被标注,作者提出了一个结合全卷积网络和主动学习的深度主动学习框架来提升标注的效率(有效性),使用FCN提供的不确定性和相似度,形成一个包含问题最大集合的广义版本,决定对于标注而言最具有代表性和不确定性的区域。
 参考博客:http://blog.csdn.net/xinrui_zhuang/article/details/79017883
1 Introduction
图像分割是生物医学图像分析的基本任务。 最近深度学习的进展[2,3,12,15,16]在许多方面取得了可喜的成果生物医学图像分割基准[1,14]。 由于其准确性和通用性,实际上,深度学习已经成为图像分割的主要选择。但,尽管在生物医学应用方面取得了巨大的成功,但基于深度学习的数据由于高标注的努力和成本。 比较中的应用程序自然场景图像,要获取生物媒体上的训练数据要困难得多,应用程序有两个主要的原因。(1)只有经过培训的生物医学专家才能做到注释数据,这使得人群相当困难。(2)生物医学图像通常比自然场景图像包含更多的对象实例可能会招致大量的注解手动工作例如,生物医学领域的公共数据集的空间注释图像明显较少(MICCAI Gland Challenge [85] 85; ISBI EMChallenge [1] 30)
为了缓解手工注释的共同负担,已经提出了一个弱监督分割算法[8].但是,这并没有很好的解决应该选哪些作为注释样本,来获得一个高质量的性能。主动学习就可以满足这个需求。如[10]所示,使用主动学习,在自然场景图像中使用显着较少的训练数据分割图像就可以达到最先进的水平。
但是,这种方法是基于预先训练的区域模型和预先训练的图像描述符网络 pre-trained region proposal model and pre-trained imagedescriptor network,不容易应用到医学图像上。
在本文中,我们提出了一个新的框架,结合全卷积网络(FCN)[11]和主动学习[13]来减少注释的工作通过对最有效的注释领域提出明智的建议
为了解决[10]中的问题,我们利用FCN获得领域特定的图像描述符和直接生成分割而不使用区域提议regionproposals。
图1概述我们深入的学习框架的主要思想和步骤。 从..非常少的训练数据.开始,我们迭代地训练一组FCN。 在每个阶段结尾,我们从这些FCN中提取有用的信息(如不确定性估计和相似性估计),以决定下一批是图像的注释。在获得新的注释数据之后,下一个阶段是开始使用所有可用的带注释的图像。虽然上面的过程似乎直截了当,我们需要克服几个挑战才能整合FCN进入这个深度积极的学习框架,如下所述。
Challenges from the perspective of FCNs:
1)FCN需要快速训练,两个注释阶段之间的时间间隔是可接受的。(2)当少量的训练数据可用时,为了产生合理的结果,它们需要具有很好的通用性。 为了使模型快速训练,我们利用批量归一化[9]和残差网络[6]的思想。batch normalization [9] and residual networks[6].
使用瓶颈设计[6]显着减少参数的数量(为了更好泛化),同时保持与[3]中相同数量的特征频道。
主动学习(active learining):在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂。在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数据送到专家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练。这一过程叫做主动学习。
challenges from the perspective ofactive learning:1.在确定下一批训练数据时,需要充分利用FCN提供的信息。 为此,我们首先演示如何基于bootstrapping的思想来估计FCN的不确定性和如何估计相似性通过使用FCN的编码部分的最后一层在图像之间进行。基于在这样的信息上,我们制定了最大集合覆盖问题的广义版本[5,7],来获取下一批训练数据。
使用2015 MICCAI腺体挑战数据集的实验[14]和淋巴结超声图像分割数据集[17]表明:(1)我们的框架提出的建议比一般方法更有效如随机查询和不确定性查询,(2)我们的框架可以实现通过仅使用50%的训练数据来实现最先进的分割性能。
2 Method
我们提出的方法由三个主要部分组成:(1)一个新的FCN,在我们的实验中使用的两个数据集显示了最先进的性能;
(2)FCN的不确定性估计和相似性估计; (3)选择最有效的训练数据的训练建议算法。
分别进行阐述:
2.1 A new fully convolutional network 一个新的全卷积网络
基于批量正则化[9]和残差网络[6]等深度神经网络结构的最新进展,我们精心设计了一种新的FCN,拥有更好的通用性和更快的训练速度。
这篇文章理论太多,不确定是不是造假论文,思想就学到这儿。
 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息