您的位置：首页 > 编程语言 > Lua

Evaluation of GIST descriptors for web-scale image search

2016-10-11 15:40 381 查看

论文介绍：

论文主要比较了全局特征GIST和其他的局部特征，分别在图像相似检索和近乎拷贝检索的两个任务上不同效果。同时作者对于BOF优化的一些方法进行了实验，例如HE(Hamming Embedding) BOF 空间划分，并在召回率和准确率进行比较，同时在使用的内存和检索时间进行了比较。最后作者提出来了一种综合传统BOF的方法，并考虑内存使用和查询准确率的建立索引的方法。在实验中，作者提出来的方法再拷贝检索中能够以牺牲很少的准确率代价达到较高的效率。

2.图像的表示

2.1 GIST全局特征

GIST特征的生成

Gabor滤波卷积feature map

32Gabor 滤波在4个尺度，8个方向上进行卷积，得到32个feature map 大小和输入图像一致。

进行区域划分，求每个区域的均值

把每个feature map 分成4*4=16的区域，计算每个区域内的均值。

计算16*32个均值的结果就获得了，512维的GIST特征。

可以改变卷积核的尺度核方向，可以获得不同的维度的GIST特征

2.3.Bag-of-Feature

提取特征：例如SIFT

聚类得到视觉中心

每幅图像表示：直方图

BoF系统构成

2.4.Hamming embedding

Hamming Embedding 生成过程

图片描述子x，(局部、全局)

表示成(q(x),b(x),…)

b(x) 长度为K的二进制

实际操作过程：

1. 随机生成矩阵An∗n,符合高斯分布

2. 对A进行QR分解[Q,R]=qr(A)

3. 投影矩阵的生成P=Q[:K,:],前K行

T=[T1,T2⋯Tn]

Ti=[t1,t2,⋯tk]T

ti为每个中心的所有特征i维度的中值。对于描述子x进行投影

z=Px=(z1,z2⋯zK)

bi={10如果zi>Tl,i,q(x)=l,l为x所在的中心否则

b=[b1,b2,⋯bK]，bi∈{0,1}

这样就可以得到一个数据集上面的二进制hamming code的方法。

根据Hamming Embedding 以及其与BOF的结合，可以得到一下的索引结构：

其中b是上述方法生成的二进制hamming code,qaqb表示其他额外的信息。比如可以是出现的频率tf,hamming code 可以作为特征点匹配或者图像匹配，也可以用来过滤特征点。继而使用tf进行投票。

2.5.BoF with spatial grid

在BOF的基础之上添加了区域信息

视觉中心: q(x)

区域信息:r(x)

图片: (q(x),r(x))

扩大视觉中心

降低准确性，提高效率

再匹配的阶段只有在同一个区域内的特征点，才认为是匹配的。所以在原来的视觉中心添加了区域信息，这样就扩大了原来的视觉中心的个数。

同时在检索的时候，只检索特定区域内的视觉中心，所以降低了准确性，但是在倒排索引当中取出来的图片少了，投票的过程少了很多，提高了效率。

2.6.Spatial Verification

空间校验算法：解决仿射变换，尺度变化

RANSAC：仿射变换

Generalized Hough Transform

Hough变换的概念：

对于求直线y=mx+c的算法：

原始图像空间x-y到参数空间m-c的变换:

这样求得经过x-y空间变换到m-c空间中所有直线，所有交点中，相交直线最多的那个点，所确定的m-c对应图像中的一条直线。

对于多个可以匹配的点，一对点可以是由四个参数的仿射变换得到的。确定满足这个仿射变换的点的个数，找到满足四个参数的最多的点。就是这两个图像特征点集合的仿射变换。根据这一点来过滤不匹配的特征点。

2.7 GIST Indexing Structure

作者提出来的一个考虑到效率和准确率的索引结构

对GIST特征进行聚类

按着Hamming Embedding生成二进制签名512bit

建立倒排索引，元素中存储二进制签名

这里不同于传统的一点就是在使用特征的时候，是使用全局特征，聚类中心是GIST进行的聚类，Hamming Embedding 用来进行过滤不相似的特征。

具体的索引构建如下：

经过索引系统，过滤不相似的图片，然后进行相似度的匹配系统。

2.8 2-stage re-ranking

相似度的计算加上空间位置的校验,从上述的检索系统图可以看出来，再过滤之后的排序的过程只需要知道相对顺序就可以。

GISTIS+L2:欧式距离的比较，距离近的相似

GISTIS+L2+SV：几何校验,使用上述的SV方法进行相似度的排序

3 实验

3.1数据集

Holidays：

多类相似检索

1491张图片

500类别

每一类的第一张作为检索图片

同类的图片认为是相似的

角度变换较大，对于全局特征效果差

Copydays：

近乎拷贝检索

157张图片原始图片

大小变换

裁剪5%~80%

尺度变换，裁剪，对比度产生229张图片

拷贝检测的的极端情况

具体的几种变换：尺度，分辨率，裁剪，大小

Distractors：其他数据

Flickr 32.7million

Tiny Set:79million 32*32

3.2 实验比较

3.2.1 Memory & Time

最后L2的两种检索方式分别在内存中和磁盘中。

1.BOF 20 SIFT/image

2.GIST-960

3.GISTIS (32+512bit)/8

4.fingerprint:描述子所属视觉中心过程

从上面的表可以看出来：

1.全局特征更快

2.作者提出GISTIS使用更少的内存，和更快的查询速度