您的位置:首页 > 产品设计 > UI/UE

[论文翻译]A review on image segmentation techniques

2017-08-29 10:12 459 查看

引介

1993年Pattern Recognition的文章.

Abstract

许多图像分割技术在文献中是可用的。这些技术中的一些仅使用灰度级直方图,有些使用空间细节,而其他技术则使用模糊集理论方法。大多数这些技术不适合嘈杂的环境。使用对噪声具有鲁棒性的马尔科夫随机场(MRF)模型进行了一些工作,但是引入了额外计算。由于并行处理能力,有助于实时获取输出的神经网络架构也被用于分割,即使在噪声水平非常高的情况下也可以正常工作。关于彩色图像分割的文献不像灰色图像那样丰富。本文对这些技术进行了批判性的评论和总结。已经尝试覆盖模糊和非模糊技术,包括彩色图像分割和基于神经网络的方法。充分关注范围图像和磁共振图像的分割。它还解决了分割结果的定量评估问题。

Introduction

有几种类型的图像,即光强度(视觉)图像,范围图像(深度图像),核磁共振图像(通常称为磁共振图像(MRI)),热图像等。 光照强度(LI)图像,我们在日常经验中遇到的最常见的图像类型,代表了现场光线强度的变化。 另一方面,范围图像(RI)是场景上不同点的深度信息的映射。 在数字LI图像中,强度被量化,而在RI的情况下,深度值被数字化。核磁共振图像表示当暴露于射频脉冲时由生物系统产生的无线电波的强度变化。 生物体(人/动物)由原子和分子构成。 一些细胞核表现得像微小的磁铁,通常被称为”spins”。 因此,如果患者(或任何生物体)被置于强磁场中,则磁核倾向于与所施加的磁场对准。 对于MRI,患者经受射频脉冲。因此,磁核进入高能量状态,然后通过称为”relaxation”的过程发射无线电波,立即释放这种应力。记录无线电波形成MRI。有两种不同的relaxation类型:纵向松弛和横向松弛导致两种类型的MRI,分别为T1和T2。 “在数字MRI中,无线电波的强度相对于强度和空间坐标进行数字化,因此一般来说,任何图像可以用二维函数描述,如果(x,y),其中(x,y)表示(x,y)处的特征值的空间坐标,f’(x,y),根据图像的类型,特征值可以是光强度,深度,无线电波或温度的强度,数字图像,另一方面是二维离散函数f(x,y),其在特征值的空间坐标和幅度上都被数字化,我们将数字图像视为二维矩阵,其行和列索引识别在图像中称为像素的点和相应的矩阵元素值标识特征强度级别。在本文中,数字图像将被表示为:



其中P x Q是图像的大小,f(x,y)属于GL = {0,1,…,L-1}是特征值的离散级的集合。 由于我们将在本文中讨论的大多数技术主要用于普通强度图像,因此在随后的讨论中,我们通常将f(x,y)称为灰度值(尽管可能是深度或温度或 无线电波强度)。

分割是低级视野的首要重要步骤。 有很多分割应用。 例如,在视觉引导汽车组装系统中,机器人需要从箱体拾起适当的部件。 为此,需要进行识别。 其应用领域与从癌细胞的检测到从遥感数据等识别机场不同。在所有这些领域中,最终输出的质量在很大程度上取决于分割输出的质量。 分割是将图像分割成一些非相交区域的过程,使得每个区域是均匀的,并且没有两个相邻区域的并集是均匀的。 形式上,它可以被定义为如下:if F是所有像素的集合,并且P()是在连通像素组上定义的均匀性(均匀性)谓词,则分割是集合F分成一组连接的子集 或区域(S1,S2,…,Sn)



当Si与Sj相邻时,所有区域(Si)和P(Si并Sj)=false的均匀性谓词P(S〜)= true。 请注意,此定义适用于我们描述的所有类型的图像。 对于LI图像的均匀性,而对于范围图像,它可能是表面的均匀性。

在文献中存在数百种分割技术,但是没有一种可以被认为对所有图像都是好的方法,也不是所有方法对于特定类型的图像都是同样有效的。此外,为一类图像(例如普通强度图像)开发的算法可能不总是应用于其他类别的图像(MRI / RI)。当算法使用特定的图像形成模型时尤其如此。例如,一些视觉图像分割算法基于灰度函数f(x,y)可以被建模为照明分量和反射分量的乘积的假设。另一方面,在Pal和Pal中,基于视觉图像形成的理论,将灰度分布建模为泊松分布。这种方法不应用于MRI / RI。然而,为一类图像开发的大多数分割方法可以轻松地应用/扩展到另一类图像。例如,尽管针对范围图像而开发的可变顺序曲面拟合方法可以应用于可被建模为分割平滑表面的噪声版本的其他图像。

有许多具有挑战性的问题,例如,可以(可能)应用于各种图像的图像分割的统一方法的开发。即使对特定类型图像的适当技术的选择也是一个难题。到目前为止,根据作者的知识,没有普遍接受的分割输出量化方法。边缘认证也是非常重要的任务。像Sobel,Prewitt,Marr-Hildreth等不同的边缘算子在每个像素位置产生一个平缓的值。但是,所有这些都不是边缘有效的(!)候选者。通常,边缘需要被阈值化。阈值的选择是非常关键的,因为图像的一些部分低强度变化可能对应于感兴趣的边缘,而另一部分可能需要高强度变化。通常将自适应阈值作为解决方案。显然,它不能消除阈值选择的问题。产生有意义的细分的一个好策略是融合区域分割结果和边缘输出。结合心理视觉现象对于光强度图像可能是好的,但不适用于范围图像。实际上语义和关于图像类型的先验信息对于解决分割问题至关重要。根据Pavlidis(视觉)图像分割是心理身体感知的一个问题,因此不易受到纯粹的分析解决方案的影响。任何数学算法通常应该通过启发式来补充,这些启发式涉及到正在考虑的图像类的语义信息。

可以尝试以各种方式提取段。广义上,有两种方法,即经典方法和模糊数学方法。在经典方法下,我们使用基于直方图阈值,边缘检测,放松,语义和句法方法的分割技术。除了这些以外,还有一些其他方法在上述任何一个类中都不能清楚地表现出来。类似地,模糊数学方法还具有基于边缘检测,阈值和松弛的方法。这些方法中的一些,特别是基于直方图的方法并不适用于噪声图像。还进行了几次尝试,使用神经网络(NN)模型,特别是Hopfield和Kohonen网络来开发图像处理算法。这些算法即使在高嘈杂的环境中也能很好地工作,并且能够实时产生输出。虽然许多算法可用于彩色图像分割,但文献并不像灰度图像那样丰富。在这种情况下,可以提到文献对分割方法非常丰富,但对分割输出的客观评价没有多少尝试。

本文尝试批判性地回顾和总结一些现有的分割方法。 在我们继续进行之前,我们总结了一些早期的图像分割调查。 傅和梅将分割技术分为三类:(1)特征阈值或聚类,(2)边缘检测和(3)区域提取。 本次调查是从细胞学图像处理的角度进行的。 对阈值,边缘检测和区域提取的几种方法进行了批评性的评估。 这也包括一些图论理论。 对于彩色图像阈值,只给出了一个简单的提及。 边缘检测部分对包括一些自适应局部算子在内的几种边缘检测方法进行了很好的总结.Heckel将边缘检测视为功能近似问题的方法已被讨论。

Haralick和Shapiro将图像分割技术归纳为:(1)测量空间引导空间聚类,(2)单连接区域生长方案,(3)混合连锁区域生长方案,(4)重心连接区域生长方案,(5)空间聚类方案,(6)拆分合并方案。根据他们,聚类和分割之间的区别是在聚类中,分割在测量空间中完成;而在图像分割中,分割在图像的空间域中完成。我们要强调的是,分割试图在空间域中进行分组,但是可以通过在测量空间中进行分组来实现,特别是对于多光谱图像。对于多光谱数据,而不是在整个测量空间中进行聚类,Haralick和Shapiro建议在多个低阶投影空间中工作,然后将这些簇反射回到完整的测量空间,如下所示:假设例如在四波段图像上进行聚类。如果在频带1和2中完成的聚类产生簇cl,c2,c3,并且在频带3和4中完成的聚类产生簇c4和c5,则来自像素的每个可能的4元组可以从集合中给出簇标签“((c1,c4),(c1,c5),(c2,c4),(c2,c5),(c3,c4)(c3,c5)}”。如果(x1,x2)在簇c2中,并且(x3,x4)在簇c4中,则4元组(x 1,x 2,x 3,x4)获得簇标签(c2,c4)。然而,这对我们来说似乎没有任何用处,因为这实际上在两个不同的类中分配了一个点(一个4元组)。请注意,它既不是概率赋值也不是模糊赋值。还提出了不同类型的连锁区域增长算法的一个很好的总结。

Sahoo等人 仅考虑了基于阈值的分割算法,并尝试使用一些均匀性和形状测量来评估某些阈值算法的性能。 他们将全局阈值技术分为两类:点依赖技术(基于灰度直方图)和区域相关技术(基于修改的直方图或同态)。 有关概率放松的相当详细的讨论是可用的。 他们还回顾了多种阈值技术的几种方法。 我们对以前关于图像分割的评论提供以下评论:

(1)这些调查都没有考虑模糊集理论分割技术。

(2)也不包括基于神经网络的技术。

(3)除了Sahoo等人,分割结果的客观评价问题尚未得到充分的解决。

(4)彩色图像分割尚未得到适当的关注。

(5)范围图像/磁共振图像的分割尚未被考虑。

本综述试图将所有这些观点纳入有限但合理的范围。 然而,绝对不是一个详尽的调查。

Gray Level Thresholding

阈值是图像分割的老式,简单和流行的技术之一。阈值可以基于全局信息(例如,整个图像的灰度级直方图)来完成,或者可以使用图像的本地信息(例如,共现矩阵)来完成。 Taxt等人分别以本地和全局信息为基础的技术作为上下文和非上下文方法。在每个这些方案(上下文/非上下文)中,如果对于整个图像仅使用一个阈值,则称为全局阈值。另一方面,当将图像划分成若干子区域并且为每个子区域确定阈值时,将其称为局部阈值。一些作者称这些局部阈值方法为自适应去偏移方案。阈值技术也可以分为二级阈值法和多阈值法。在二维阈值中,图像被划分为两个区域 - 对象(黑色)和背景(白色)。当图像由具有不同表面特性的几个对象组成(对于光强度图像,具有不同反射系数的对象,对于范围图像,可以存在具有不同深度的对象等等),需要用于分割的几个阈值。称为多阈值。在这种情况下,我们尝试得到一组阈值(t1,t2 … … tk),使得所有f(x,y)的像素都属于[ti,ti + 1],i = 0,1。 … k构成第i个区域类型(t0和tk + 1分别取为0和L-1)。注意,阈值也可以被视为分类问题。例如,二级分割等效于将像素分为两类:对象和背景。 Mardia和Hainsworth表明,Ridler和Calvard和Lloyd的迭代阈值计划背后的主要思想可以定义为古典贝叶斯歧视规则的特殊情况。在假设对象和背景像素以相同方差正态分布的情况下,贝叶斯分配规则产生用于参考的阈值计算公式。另外假设对象和背景像素的先验概率是相同的,贝叶斯公式减少到Ridter和Calvard中阈值的计算公式。

如果图像由具有不同灰度级范围的区域组成,即区域不同,则图像的直方图通常显示不同的峰值,每个峰值对应于一个区域,并且相邻的峰值可能被谷分隔。例如,如果图像在背景上具有不同的对象,则灰度级直方图可能是具有深谷的双峰。在这种情况下,将谷底(T)作为对象背景分离的阈值。因此,当直方图具有(或一组)深谷时,阈值的选择变得容易,因为它成为检测谷的问题。然而,通常情况不是这样,阈值选择不是一件微不足道的工作。有各种方法可用于此。例如,Otsumaximized化分类的度量。他最大化了类别方差与局部方差之间的比值,以获得阈值。 Nakagawa和Rosenfeld假设物体和背景人群正常分布,具有不同的手段和标准偏差。在这个假设下,他们通过最小化总的错误分类错误来选择阈值。这种方法在计算上涉及。 Kittler和Illingworth在相同的正常混合假设下提出了一种计算量较少的方法。他们提出了一种优化与平均像素分类错误率相关的标准函数的方法,该方法发现了一个近似的最小误差阈值。 Pal和Bhandari优化了相同的标准函数,但假定泊松分布来模拟灰度级直方图。

Pun假设图像是L符号源的结果。为了选择阈值,他最大化分割图像的总后验熵的上限。另一方面,Kapur等人假设两个概率分布,一个是对象区域,另一个用于背景区域。然后,它们使分割图像的总熵最大化,以达到阈值水平。 Wong和Sahoo最大化了分割图像的后熵,限制了Levine和Nazif的均匀度测量以及形状测量。他们最大化了min(sl,s2)和max(sl,s2)的后熵获得分割阈值;其中s1和s2是均匀性和形状测量达到最大值的阈值水平。 Pal和Pal将图像建模为两个泊松分布的混合,并开发了几种用于分割的参数方法。泊松分布的假设是基于理论:形象形成的。这些算法可以最大化熵或最小化卡方统计量。虽然这些方法仅使用直方图,但是由于结合图像形成模型,它们产生良好的结果。

所有这些方法都有一个共同的缺点,它们仅考虑直方图信息(忽略空间细节)。结果,如果这些算法没有被适当地反映为直方图中的谷,则这样的算法可能无法检测阈值,这通常是这种情况。存在许多使用空间信息的阈值方案,而不是直方图信息。例如,Weszka和Rosenfeld的繁忙度量取决于图像中相邻像素的同现。他们最大限度地减少忙碌措施,以达到分割的门槛。 Deravi和PaP最小化跨越两个地区之间边界的过渡条件概率。该方法还使用包含在图像的同现矩阵中的局部信息。然而,最终所有这些方法对直方图进行了限制,但是由于它们利用了空间细节,所以它们比仅使用直方图信息的方法产生了更有意义的分割。基于共生矩阵,Chanda等人给出了分割的平均对比度。 Pal和Pal提出使用人类心理视觉系统的亮度感知方面的区域之间的对比度和区域均匀性的度量,并将它们应用于分割。他们还分别定义了均匀性和对比度测量的图像的高阶熵和条件熵。这些措施最终被用于开发对象提取算法。 Abutaleb已经使用类似于Pal和PaP的二阶局部熵的概念进行分割。已经使用像素的灰度值和其相邻像素的平均值来计算共生矩阵。结果,分割对象的边界通常变得模糊。

灰度级阈值化背后的哲学“灰度等级<= T的像素落入一个区域,剩下的像素属于另一个区域”,在许多情况下可能不是真的,特别是当图像噪声或背景不均匀时,照明不好在这种情况下,对象仍然会比背景更亮或更暗,但是整个图像的任何固定阈值级别通常都不能从背景中对对象进行读取。这导致了自适应阈值的方法。在自适应阈值处理中,通常将图像划分为几个相等面积的不重叠块,每个块的阈值是独立计算的。 Chow和Kaneko使用每个块的(子)直方图来确定相应细胞中心的局部阈值。然后在整个图像上内插这些局部阈值以产生阈值表面。他们只使用灰度信息。亚诺维茨和布鲁克斯坦扩大了这一想法,使用了组合的边缘和灰度信息。他们从图像的平滑版本中计算了灰度级梯度。然后使用局部最大值定向稀疏过程对梯度值进行阈值化和稀疏化。将这些局部渐变最大值的位置作为对象和背景之间的边界像素。图像中相应的灰度级作为局部阈值。然后在整个图像上插值采样的灰度级,以获得自适应阈值表面。已经讨论了二维插值问题的几种方法。算法的性能可能取决于梯度的阈值水平的选择,并且没有为此提供准则。

Iterative pixel classification

relaxation

松弛是一种迭代的分割方法,其中可以并行采用关于每个像素的分类决策。然后将在当前迭代中的相邻点进行的决定合并,以便在下一次迭代中作出决定。有两种放松方式:概率和模糊。我们在这里讨论概率放松。假设一组像素{f1,f2 …… fn}被分类为m个类{C1,C2 ….. Cm}。对于概率放松,我们假设对于每对类赋值fi属于Cj和fh属于Ck,存在这个对的兼容性C(i,j; h,k)的定量测量,即像素的类分配是相互依赖的。可以合理地假设C(i,j; h,k)的正值表示fi属于Cj和fh属于Ck的兼容性,而负值表示不兼容,零不关心情况。函数C不必对称。

令Pij 表示fi属于Cj的概率,其中1 <= i <= n 且1 <= j <= m,有0 <= pij <= 1,sum{j}pij = 1. 直觉上,如果Phk为高,并且C(i,j; h,k)为正,则我们增加Pij,因为它与高概率事件fh属于Ck兼容。 类似地,如果phk为高,并且C(i,j; h,k)为负,则我们减少Pij,因为它与fh属于Ck不兼容。 另一方面,如果phk低或C(i,j; h,k)几乎为零,则Pij不改变,因为C k具有低概率或与fi相对于Cj无关。 模糊的放松是相似的。

MRF based approaches

有许多图像分割方法使用像马尔可夫随机场(MRF)或吉布斯随机场(GRF)之类的空间交互模型来对数字图像进行建模。 Geman和Geman提出了原始图像的分层随机模型,并开发了一种基于随机弛豫(SR)和退火的恢复算法,用于计算原始场景的最大后验估计,给出了降级的实现。由于使用退火,恢复算法不会以局部最大值停止,而是发现后验概率的全局最大值。我们在这里提到,概率松弛(也称为放松标记(RL))和随机松弛虽然具有平行度和局部性等共同特征,但是是非常明显的。 RL本质上是一个非随机(确定性)过程,允许跳转到较低能量的状态(配置)。另一方面,也允许SR转换到增加能量(降低概率)的配置。事实上,如果新配置降低能量,系统就会转换到该状态,而如果新配置增加系统以概率接受该状态的能量。这有助于系统避免局部最小化。 RL通常被困在本地最小值中。此外,在RL中,在配置上没有对应于平衡状态或甚至联合概率定律。 Derin等人将Askar和Derin的一维贝叶斯平滑算法扩展为二维,以获得每个像素的场景值的最佳贝叶斯估计。为了降低算法的计算复杂度,将场景建模为特征类型的MRF模型,称为马尔科夫网格随机场,其特征在于因果过渡分布。在相对较窄的条带上进行处理,并且在条的中间部分获得估计值。这些片段与重叠的条带产生场景的次优估计。没有并行实现,这些算法成为计算上禁止的。 Derin和Elliott对图像数据使用了双重随机层次模型。在顶层,Gibbs分布(GD)用于将图像像素的簇表征为具有相似特征的区域。在底层,区域类型的特征或纹理属性由第二组GD建模,每类类型一个。通过使用最大后验概率(MAP)准则导出分割算法。为了减少精确MAP估计的计算开销,他们通过简化模型中的假设来推导出次优解。他们将其定义为动态规划问题。这些算法只需要在图像上进行一次光栅扫描。

Neural network based approaches

对于任何人造视觉应用,人们希望实现系统对随机噪声和处理器故障的鲁棒性。此外,如果能够模拟人类信息处理系统的某些方面,系统(可能)可以被人为地智能化。另一个重要的要求是实时输出。基于神经网络的方法是实现这些目标的尝试。神经网络是基本处理器的大规模连接网络。声称一些网络的架构和动力学类似于生物神经元中的信息处理。大规模连接器架构通常使系统稳定,而并行处理使系统能够实时生成输出。几位作者试图用神经网络来分割图像。 Blanz和Gish使用三层前馈网络进行图像分割,其中输入层中神经元的数量取决于每个像素的输入特征数量,输出层中的神经元数量等于类数。 Babaguchi等人使用经过反向传播训练的多层网络,用于阈值化图像。输入到网络是直方图,而输出是期望的阈值。在这种方法中,在学习需要产生视觉合适的输出的具有已知阈值的大量样本图像时。但是对于实际应用来说,很难获得许多样本图像。

最近Ghosh等人使用大规模连接的网络在嘈杂的环境中提取物体。使用神经网络完成了建模为GRF并被加性高斯噪声破坏的场景的最大后验概率估计。还提出了用于这种网络的神经元的硬件实现。这种基于NN的方法考虑了上下文信息,因为GRF模型考虑了相邻像素之间的空间交互。参考文献中已经开发了使用Hopfield型神经网络从高度噪声损坏的场景中提取物体的另一种鲁棒算法。网络的能量功能已经被构造成在网络的稳定状态下从嘈杂的场景中提取紧凑的区域。多层神经网络,其中层i(i> 1)中的每个神经元连接到层(i-1)中的相应神经元和其一些相邻神经元(在层i-1中)已被用于分割噪声图像。输出层神经元的输出状态已被视为模糊集(在第7节中定义)。已经推导出权重更新规则,以最小化系统中的模糊性。对于该算法,网络的架构强制系统考虑上下文信息。此外,该算法集成了模糊集(来自不精确/不完全知识的决策)和神经网络(鲁棒性)的优点。 Shah在能量最小化模型的背景下制定了边缘检测的问题。该方法能够消除弱边界和小区域。 Cortes和Hertz提出了一种NN来检测不同方向的潜在边缘。已经通过使用模拟退火和平均场退火的模拟研究来研究该系统的性能。参考图像分割问题已经被制定为约束满足问题(CSP),并提出了一类约束满足神经网络(CSNN)。 CSNN由一组对象,一组标签,约束关系的集合和描述各个对象之间的邻域关系的拓扑约束组成。 CSNN被看作是相互联系的神经元的集合。该架构的选择方式使其表示CSP中的约束。发现所提出的方法在CT(计算机断层摄影)图像和MRI上成功。然而,具有噪声数据的算法的鲁棒性尚未被研究。此外,对于参考,即使对于中等大小的图像,也需要大量的神经元。

Surface based segmentation

本节主要讨论了几种选择的范围图像分割技术。 Besl和Jain已经开发了基于图像数据呈现表面相干性的假设的图像分割算法,即图像数据可以被解释为来自分段平滑表面函数的噪声样本。尽管这种方法对于范围图像来说可能是最有用的,但它可以用于分割任何类型的可被建模为分段平滑图形表面的噪声采样版本的图像。该方法基于高斯和平均曲率的符号产生一组八个表面原语:峰,坑,脊,鞍脊,谷,鞍谷,平(平面)和最小。这些图元具有一些理想的不变性质,可用于分解任何任意平滑的表面。换句话说,任何任意的光滑表面可以分解成这八种可能的表面类型之一。为了分割的目的,这些简单的表面可以通过阶数为4的双变量多项式很好地近似。算法的第一阶段基于局部信息(使用平均曲率和高斯曲率图像)创建表面类型标签图像。第二阶段将原始图像和表面类型图像作为输入,并使用可变阶面拟合进行迭代区域生长。在可变顺序表面拟合中,首先尝试通过平面来表示种子区域中的点。如果发现平面表面的简单假设是真实的,则种子区域在平面表面拟合上生长。如果这个简单的假设失败,那么尝试下一个更复杂的双曲面拟合假设。如果这样做满足的话,该地区就是以这种形式生长的,否则,下一个复杂的形式被尝试。当区域增长已经收敛(相同区域获得两次)或当所有预选假设失败时,该过程终止。在后一种情况下,可能需要尝试更高阶的表面。

Hoffman和Jain已经开发出了一种对范围图像进行分割和分类的方法。他们使用聚类算法将图像分割成表面斑块。已经尝试了不同类型的聚类算法,包括基于最小生成树,相互最近邻,层次聚类和平方误差聚类的方法。已经发现平方误差聚类是范围图像最成功的方法。所使用的特征集包含坐标位置(x,y),深度值f(x,y)和估计的单位面法线矢量。单位表面法向量在通过在邻域上找到最佳(最小二乘方))标题平面获得的点处于切线平面。在该方法的第二阶段,这些贴片被分类为平面的,凸的或凹的。为了使分类方法更有效,它们结合了“非平均性非参数趋势测试”,“曲率平坦度测试”和“特征值平面度测试”三种不同的方法。在最后阶段,相邻表面贴片之间的边界被分类为折痕或非皱纹边缘,然后将该信息用于合并相邻的相容贴片,以产生对象的合理面。对于这种类型的方法,选择邻域计算局部参数是一个重要问题,没有为此提供理论指导。

Yokoya和Levine也使用像Besl和Jain的差分几何技术进行范围图像分割。横滨和莱文结合了区域和边缘的考虑。它们使用二次多项式近似对象表面。如高斯和平均曲率(曲率符号图)的参考符号已被用于获得基于初始区域的分割。形成两个边缘图:一个用于跳跃边缘,另一个用于屋顶边缘。通过计算点与其八个邻居之间的最大深度差来获得跳跃边缘幅度;而屋顶边缘幅度被计算为相邻单位表面法线之间的最大角度差。然后将这两个边缘图和曲率符号图融合以形成最终分割。该方法也需要选择地图和曲率符号图的阈值水平。这些参数值的不正确选择可能会降低分割输出的质量。在这一点上,我们注意到,对于范围图像,可以用普通梯度算子来检测跳跃边缘,但是用普通梯度算子检测折痕是困难的。对于倾斜的平面深度值,缓慢变化,因此任何差值运算符都可能发生反应,从而导致错误的边缘。通常,折痕边缘的大小被计算为相邻单位表面法线之间的最大角度差。请注意,最大角度差分法可能(通常会)无法检测跳跃边缘。

因此,对于范围图像中的边缘检测,需要分别考虑折痕和跳跃边缘。 Rimey和Cohen将问题定义为最大似然(ML)分割问题。 这里的目标是将范围图像分割成窗口,将每个窗口分类为特定的表面原语,并将窗口分组到表面区域。 均匀窗口根据广义似然比检验进行分类。 该测试使用来自相邻窗口的信息,计算上简单。 一旦每个窗口被分类,使用ML聚类分析合并类似的窗口。

Segmentation of color images

颜色是与人类对可见光电磁波中不同波长的响应有关的非常重要的知觉现象。图像通常由三个颜色分量R(红色),G(绿色),B(蓝色)的分布来描述。彩色图像通常也由三种心理素质 - 色调,饱和度和强度组成。这些颜色特征和许多其他特征可以通过线性或非线性变换从三基色R,G和B计算。 Ohta等尝试通过区域分割的系统实验找到一组有效的颜色特征。他们应用了一个Ohlander类型的分割算法进行实验。在分割区域的每个步骤中,通过R,B和G数据的Karhunen-Loave(KL)变换,对该区域中的像素进行新颜色特征的计算。基于广泛的实验,已经发现以下三种颜色特征I1 =(R + B + G)/ 3,I2 =(R-B)/ 2或(B-R)/ 2和I3 =(2G- R-B)/ 4构成了一组有效的分割特征。

频谱分析是彩色图像分割的另一种技术,其中使用关于对象颜色的先前知识来对像素进行分类。然而,在许多现实生活中,关于对象的颜色的先前知识可能难以收集。在这种情况下,可以使用聚类技术。 Ohta等而不是直接使用R-B-G颜色坐标,使用I1,I2和I3。林和李开发了基于阈值和模糊c均值(FCM)方法的两阶段彩色图像分割技术。 FCM方法将在第7节中讨论。该方法可以被看作是一种粗略到精细的技术,试图减少FCM的计算开销。该方法类似于Huntsberger等人提出的迭代算法。除了它使用比例空间过滤器来查找聚类数。粗分段尝试使用阈值分割,然后使用FCM算法将尚未分配给粗分段阶段中的任何类的像素分类。虽然该方法声称自动找到类的数量,但它确实有一些主观的选择。例如,在粗分段阶段,如果类中的像素数超过预定阈值,则仅将其作为有效类。我们在这里提到,彩色图像是针对多光谱图像开发的多光谱图像和算法的特殊情况,通常可以用于彩色图像分割。

Edge Detection

也可以通过检测各种区域的边缘来获得分割,这些边缘通常试图定位灰度级强度值突然变化的点。如前一节所述,对于范围图像边缘在深度值显着变化的点处被声明。由于边缘是局部特征,它们是基于本地信息确定的。在文献中有很多种方法用于边缘发现。戴维斯将边缘检测技术分为两类:顺序和并行。在顺序技术中,像素是否是边缘像素的决定取决于在某些先前检查的像素处的检测器的结果。另一方面,在并行方法中,基于所考虑的点和其相邻点的一些点来确定点是否是边缘的判定。作为其结果,操作者可以同时应用于图像中的每个点。顺序边缘检测方法的性能取决于适当起始点的选择以及先前点的结果如何影响下一个点的选择和结果。 Kelly和Chien和Fu使用了引导搜索技术。 Chien和Fu使用具有评估功能的顺序搜索技术检测胸部X射线图像中的心脏和肺部边界。

有不同类型的并行差分算子,如罗伯茨梯度,索贝尔梯度,Prewitt梯度和拉普拉斯算子。 这些差异运算符对灰度级或平均灰度级的变化做出响应。 梯度运算符,不仅响应边缘,而且对孤立点。 对于Prewitt的运算符,对对角边缘的响应是弱的,而对于Sobel的运算符,它不是那么弱,因为它对于靠近正在考虑的点(x,y)的点给予更大的权重。 然而,Prewitt和Sobel的运营商都拥有更大的抗噪声能力。 前面的运算符称为第一个差分运算符。 另一方面,拉普拉斯算子是第二个差分运算符。Laplacian算子如下:



数字拉普拉斯算子是第二个差分运算符,对线性斜坡具有零响应。 它对拐角,线条和孤立点强烈反应。 因此,对于嘈杂的图像,除非它具有低对比度,否则噪声将产生比边缘更高的拉普拉斯值。 此外,数字拉普拉斯算子不是方向不变的。 一个好的边缘检测器,应该是具有以下两个特征的滤波器。 首先,它应该是一个差分算子,取图像的第一个或第二个空间导数。 第二,它应该能够被调整为以任何所需的规模行事,以便可以使用大的滤光片来检测模糊的阴影边缘,而小滤镜可以用来检测尖锐的细节。 第二个要求是非常有用的,因为强度变化发生在图像中的不同尺度。根据Marr和Hildreth,满足这些条件的最令人满意的算子是高斯(拉普拉斯算子)运算符。 通常表示

其中拉普拉斯算子是由等式(3)和等式4给出



是二维高斯分布,具有标准偏差。

LG操作者的高斯部分模糊图像,擦除所有结构的比例高于高斯的结构。 高斯模糊函数优于其他模糊函数,因为它具有在空间和频域中平滑和局部化的所需性质。 为了找到给定尺度的强度变化,Marr和Hildreth首先用

滤波器过滤图像,然后在滤波图像中找到过零点。 比例参数a和过零曲线描述的空间称为比例空间。 Lu和Jain研究了LG操作员产生的尺度空间边缘的行为。为了在尺度空间中制定推理规则,他们研究了边缘的错位,虚假边缘和边缘与好的数学框架的合并。

根据Canny,好边缘检测器应具有以下三个属性:(1)错误地标记非边缘点的概率很低,并且没有标记实际边缘点的可能性低(即良好的检测); (2)标记为边缘的点应尽可能靠近真实边缘的中心(即良好的定位); 和(3)对单个边缘点(单个响应)仅一个响应。 可以通过最大化信噪比(SNR)来实现良好的检测,而对于良好的定位,Canny使用r.m.s的估计的倒数,标记边缘与真实边缘的中心的距离的倒数。 为了最大限度地同时实现良好的检测和定位准则Canny最大化了SNR的乘积和边缘点位移的标准偏差(近似)的倒数。 产品的最大化完成了对消除对单个边缘点的多个响应的约束。

在无噪声图像的情况下,可以精确测量边缘角度,但在实际生活中,图像无法避免噪声,因此难以估计真实边缘角度。基特勒等人提出了三种方法来改善从Sobel’s算子获得的边缘角度估计。所有这三种方法都涉及Sobel算子在3×3窗口上的平均输出。发现忽略了角度估计所希望的中心像素的影响的方法之一产生最好的结果。他们也证明了这种违反直觉的观点。哈拉利克从一个新的角度攻击边缘和地区检测的问题。他假设观察到的图像是添加噪声的理想图像。图像中的每个区域都是倾斜平面。为了确定两个像素之间的边缘,找到每个像素附近的最佳拟合斜面。边缘在其两侧有明显不同的平面的位置被声明。最小二乘误差过程已被用于估计给定邻域的倾斜表面的参数。已经使用适当的F统计量来测试来自零斜率的估计斜率的差异的显着性或相邻邻居的估计斜率的差异的显着性。

Gokmen和Li使用正则化理论开发了一个迭代算法。标准分割中的能量功能已被修改为空间控制图像上的平滑度,以获得边缘的准确位置。 Reichenbach等人已经提出了一种用于定义处于成像过程的一些重要方面的小型最优核的算法。用于边缘检测。该算法考虑了场景的性质,图像采集装置的点扩散功能,噪声的影响等;并产生最小化场景特征估计的预期均方误差的内核值。我们已经讨论过各种运算符来获得边缘值。这些操作者产生的所有边缘通常在人类观察时并不重要(相关)。因此,需要从边缘算子的输出中找出突出的(有效的)边。 Kundu和Pal“7)提出了一种阈值提取方法来提取突出边缘的心理视觉现象,Haddon开发了一种基于图像噪声统计的任何边缘算子的阈值的技术。

Methods based on fuzzy set theory

这一部分主要是模糊集理论下的阈值、聚类、边缘检测方法.

Comparision of some methods

我们已经讨论了几种分割方法,但到目前为止还没有显示任何结果。在本节中,为了完整性和说明性,我们考虑由几种技术产生的分割结果。我们实现了六种基于直方图的方法(OIsu,Pun,Kapur等人,Kittler和Illingworth,Pal和Bhandari以及Pal和Pal的方法)和两个迭代像素分类方法(使用NN的场景的松弛和MAP估计)。参考文献有几种算法,我们只实现了最大熵算法(使用泊松分布)。由于前六种算法不适用于高噪声图像,而最后两种算法是两种输入图像。图2(a)是亚伯拉罕·林肯的图像,图3(a)是具有几何对象的合成噪声图像。不用说,前六个算法对此图像失败。我们已经在图2(a)和图3(a)的最后两个算法中应用了前六个阈值算法。图2(b) - (f)表示由林肯图像的不同阈值方法产生的不同分割图像。我们为Kittler和Illingworth的方法尝试了不同的初始近似阈值,但是完全不能产生任何有意义的阈值。该算法不会收敛或收敛于灰度级的结尾。另一方面,参考的算法基本上使用了Kittler和lllingworth的概念,但是使用泊松分布对直方图进行建模,产生了良好的阈值图像(图2(b))。 Pun和Kapur等人的方法产生的分割结果分别显示在图2(c)和(d)中。这两种方法均基于熵最大化。参考中使用基于泊松分布的模型(考虑图像形成过程导出)的参数方法产生图。图2(e)。通过Otsu方法得到的结果(图2(f))优于图2(c)和(d);但是这个结果也不如基于Poisson分布的方法所产生的那样好。对于嘈杂的图像(图3(a)),概率松弛方法产生相当好的分割(图3(b))。基于神经网络的方法使用GRF对噪声场景进行建模,然后使用网络获得场景的MAP估计(分段图像)也产生了图3的良好分割(图3(c))(图3(c))一个)。





Objective evaluation of segmentation results

我们已经讨论了几种图像分割方法。已知没有任何方法对所有图像同样有效,并且所有方法对于特定类型的图像都不利。这里一个重要的问题还有待探讨,如何对分割结果进行定量评估。这种定量措施对于需要自动决策的视力应用将是非常有用的。这也有助于证明算法的合理性。不幸的是,人类是评估任何分割算法输出的最佳判断者。然而,已经有一些尝试进行了定量评估。 Levine和Nazif使用二维距离度量来量化两个分割图像之间的差异,一个由另一个由算法提出。之后,他们定义了另一组性能参数,如区域均匀性,区域对比度,线对比度等。这些措施也被用于分割算法的定量评估。 Lim和Lee试图通过计算手动分割图像与分割结果之间的误差概率来做到这一点。 Pal和Bhandari使用高阶局部熵作为衡量输出质量的指标。他们还建议在两个概率分布之间使用对称发散,一个用于由算法生成的输出,另一个用于手动分割的图像。原始图像和分割图像之间的相关性度量也被用于定量评估的目的,我们已经提到人类是评估结果的最终判断。然而,可以使用这种措施的向量进行客观评估。例如,如果对于某些分割图像,相关性,均匀性和熵都很高,而且发散度低,那么可以认为输出是好的。

Conclusion

本文回顾和总结了一些现有的分割方法。 稳重并没有丰富的彩色图像分割。 模糊集理论分割方法的范围也很广。 基于神经网络模型的算法似乎非常有前途,因为它们可以实时生成输出。 此外,这些算法也很强大。 选择适当的分割技术很大程度上取决于图像的类型和应用领域。 一个有趣的调查领域是找出客观评价分割结果的方法。 为此,很难找到一个量化指标,因为这样的指标应该考虑到诸如同质性,对比度,紧密性,连续性,心理视觉感知等许多因素。人类是可能的最好的判断。 然而,可能有一小部分属性矢量可以用于客观评估结果。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐