您的位置：首页 > 产品设计 > UI/UE

阅读图像显著性检测论文二：Frequency-tuned Salient Region Detection

2016-12-06 22:39 302 查看

本博客为博主原创，转载请注明地址：http://blog.csdn.net/xbcreal/article/details/53494866

本文将介绍一种新的显著性检测方法，新是相对于这个显著性检测的博客系列而言的，按发表年限看是不新的，是出自于CVPR 2009的一篇文章，至今引用次数达到1854次，由此可见这也是一篇非常经典、值得我们去学习作者的思想的一篇文章，并可以将其用到实际的项目中去。本文也将沿袭上一篇文章的风格，主要介绍论文的核心部分，即这个模型是怎么样的，以及一些具体的细节。同时，为了让全文行文流畅，不至于因为仅有一个模型的介绍而显得过于晦涩，所以还会摘取论文中一些语句来使得这篇博客变得更为连贯。这也是笔者对这种阅读论文后的所写博客提出的一种要求和规范，希望能给读这篇博客的人带来一种既能快速了解整篇文章的核心又能有比较轻松的体验的途径。

在摘要部分，作者对本文所提的显著性检测方法做了一个大致的介绍，意思是说：这个方法使用的特征是颜色特征和亮度特征，相比之前的一些方法的优点在于计算量小从而计算快、边界处的显著性也非常好、产生的显著性图和原图一样大(有的显著性方法产生的显著性图和原图大小不一样，如果你看过我的第一篇显著性检测论文的话，你会发现在那篇论文中所提到的显著性检测方法实际上是把图像以原图最大，然后向下采样构成图像金字塔，最后是在尺度为4的那个图像上生成的显著性图，这就导致显著性图和原图大小不一致。)最后还和五种表现优秀的显著性检测算法做了比较，在真值评价和分割任务中都取得了最好的检测准确率和召回率。(准确率和召回率的定义见我的一篇转载的博客)。

在介绍本文所提出的方法之前，先了解下之前已有的一些优秀的方法。首先将这些方法大致分为三大类：

1、基于生物视觉的

2、纯粹的需要大量计算的

3、以上二者的结合

本系列博客的第一篇论文提出的Itti模型就是基于生物视觉的，以及Frintrop等人在Itti模型的基础上提出的方法也是基于生物视觉的，这篇文章笔者并没有仔细了解，所以只贴出链接方便读者下载，不做过多介绍。纯粹依赖大量计算的有Ma
and Zhang的Contrast-based image attention analysis by using fuzzy growing，这也是一篇引用近1000的文章，发表于2003年，后面会对这篇文章进行详细介绍。纯粹依赖大量计算的方法中最为出名的应该是Hou
and Zhang于2007年发表的一篇Saliency detection:A spectral residual approach.一作侯晓迪在大三的时候发的，思想简单，matlab代码5行，引用次数2000+，本系列后续会介绍这篇文章。第三类的方法包括Harel等人基于Itti模型和图模型于2007年提出的Graph-based
visual saliency.也是一篇高引论文，值得我们去揣摩其中的思想。

随后作者提出了现有的一些方法存在的弊端，主要包括以下三个方面：

1、一些方法产生的显著性图和原图大小不一样，而很显然我们更希望得到和原图一样大小的显著性图，这样更便于进行下一步处理。

2、一些方法产生的显著性图中物体的边界不明显，文中称这样的边界是ill-defined，产生这种情况的原因是对图像进行下采样严重降低了图像的空间频率范围，使得一些高频信息如边界无法得到保留。这将严重影响显著性图的可用性，因为很多情况下，我们是要基于得到的显著性图进行图像分割的，我们当然希望能够分割出有意义的物体或者背景，但如果显著性图上的物体边界都不明显的话，那分割的难度可想而知了。

3、一些方法能够让边界亮度变高，但无法均匀地使整个显著区域都变得突出、高亮。或者还存在对小的显著区域高亮，但对大的显著区域效果不那么好。产生这种结果的原因还是由原图得到显著性图时空间频率范围被限制了，以及和具体算法有关。

然后，作者在频率域对显著性检测方法进行了一个比较，本次用来做对比的几种方法在前文中基本已经提到过了，都是一些非常优秀的方法。主要包括以下五种方法：

1、显著性的开山之作——Itti的模型，是基于生物视觉的，简称IT。

2、Ma and Zhang的方法，前文在提到纯粹依赖计算的方法的时候提到过这个方法，简称MZ。

3、Harel等人的方法，即结合生物视觉和大量计算的基于Itti和图模型的一种方法，简称GB。

4、Hou and Zhang的方法，也是纯粹依赖大量计算的一种方法，在频率域进行处理，简称SR。

5、Achanta等人的方法，同样是一种纯粹依赖大量计算的方法，他的特点是得到的显著性图和原图大小一致，简称AC。

/////////////////////////////////////////////////////////////////////////////////////////////////////////////////

我们先看一下对于同一张图，这五种方法得到的显著性图分别是什么样的，然后再分析为什么会是这样的。

对于IT产生的显著性图，我们可以明显看到图像很模糊，高频信息很少，那么这是为什么呢？根本原因在构成高斯金字塔时我们除了有一个下采样的动作以外，还有一个用高斯函数进行模糊的动作，这个高斯函数从频域看来就是一个低通滤波器，会滤除部分高频信息，文中作者写道每做一次下采样和高斯模糊，就会使得频率域近乎减半，原本是[0,PI]的频域，到最小的那个高斯金字塔图片时候频率范围在[0,PI/256]。因此可以看到这种模型对频率的损失是非常严重的，所以会导致上图中的效果。

对于MZ产生的显著性图，同样是比较模糊的，高频信息较少，但相对于IT又要好一点，原因在于这种方法是把图像分成若干个block，这里以一个block为10*10为例，所以频率域从[0,PI]变为了[0,PI/10]。(事实上，笔者对于为什么是PI/10也不是太明白，如果有知道的朋友可以在评论处指点下。)

对于GB产生的显著性图，它是基于Itti模型和图论模型的，大致方法和Itti差不多，都是金字塔下采样，然后提取特征，但它的下采样层数要少一些，从而保留了相对Itti模型而言更多的高频信息，从上图也可以看到，GB和IT产生的显著性图是非常相似的。

对于SR产生的显著性图，它将所有尺度的图片都通过低通滤波和下采样成为64*64的图片，如果原图是320*320的话，这样就长宽各减少到了1/5，所以频率范围也从[0,PI]变为[0,PI/5]。相对以上方法频率范围是得到较多保留的。

对于AC产生的显著性图，保留了(0,PI]频率范围的信息，但是直流部分被滤除了，具体原因笔者不太清楚，因为这篇论文尚未仔细阅读过，待读过之后再来更新这块内容。

综上，我们可以统计得到下表：

模型介绍

首先作者提出了显著性检测应该满足的五点基本要求：

1、着重强调最大的显著性物体。

2、显著性区域的亮度要均匀，不能一部分很亮一部分很暗。

3、边界处要明显。

4、应当丢弃由纹理、噪声产生的高频信息，因为这些对这个显著性检测没有实际的贡献，反而会干扰显著性检测。

5、整个检测算法应当是高效的，同时产生的显著性图应当和原图大小一致。

不难看出，这几点要求也是非常自然且合理的，是符合人类对显著性检测的期望的。

我们令Wlc为低通截止频率，Whc为高通截止频率，为了高亮那些大的显著性区域，我们必须让Wlc足够低，我的理解是因为大的显著性区域的低频成分较多，在图像中看了比较平缓。Wlc足够低也将使得显著性区域的亮度变得均匀。为了让边界明显，我们需要保留高频成分，因为边界处变换明显，在频率域变现为高频。但为了避免噪声、纹理的干扰，我们应该让最高的频率被截止掉，因为噪声、纹理往往表现为非常非常高的频率。综上所述，不难得出结论：我们需要一个带通滤波器[Wlc,Whc]。

在论文中采用了DoG算子作为带通滤波器的具体实现，当两个高斯函数的标准差是1:1.6的时候，被认为是最适合用于检测亮度变化的一个算子。公式如下图：

令σ1>σ2,σ1决定了Wlc，σ2决定了Whc。随后作者介绍了在选择σ1和σ2参数的一些考虑，最终的目的也是为了满足提出的五点基本要求。

最后作者提出了计算显著性的公式：

其中Iu是原图的像素值的算术平均值，而Iwhc(x,y)是经过DoG算子模糊后的图像的(x,y)处的像素值。将上式进一步扩展，得到以下公式：

这个式子是计算的二范数，而前者是计算的一范数。这里使用的特征空间是Lab颜色空间，Iu是原图的Lab空间的平均值，Iwhc(x,y)是经过DoG算子模糊后的图像的(x,y)处的Lab向量值[L,a,b]T。至此，显著性图已经产生了。后面的就是作者进行的一些对比性实验，感兴趣的读者可以下载论文仔细阅读。另外，值得一提的是作者提供了相应的matlab代码、可执行文件以及两份vs2008工程代码，一份只做显著性检测，另一份做检测和分割，用检测的代码跑我自己的例子效果如下：

论文网页链接：http://ivrlwww.epfl.ch/supplementary_material/RK_CVPR09/，内含上面所说的各种代码。

最后由于笔者也是刚刚接触这个领域，所以文中难免出现一些理解不到位的地方，还请大家多多指出，互相交流。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航