您的位置:首页 > 其它

论文解读:NMF-KNN : Image Annotation using Weighted Multi-view Non-negative Matrix Factorization

2017-12-15 11:15 856 查看

摘要

现实中一个数据库中的图片是不断动态变化的,因此现有的图像标注方法有两个主要的缺点:一是加入新标签和新图像时,模型需要重新训练;二是需要对图像的多个特征进行专门的特征融合。本文提出一种加权的多视角非负矩阵分解方法来解决这两个问题。核心思想是利用提出的NMF-KNN算法在近邻图像集的特征和标签上学习基于查询的生成模型。NMF-KNN算法在不同特征的系数矩阵上加上一致性约束,这使得所有特征的系数矩阵保持一致,这自然而然地解决了特征融合的问题。而算法中引进的权重矩阵则消除了数据失衡的问题。最后,由于我们的算法是基于查询的,所以数据集中图像和标签的增加对我们的算法没有任何影响。实验表明我们的算法在两个数据集上均取得了有竞争力的效果。

1 简介

图像标注基于图像的视觉内容给图像附上文本标签。图像往往由多种不同的特征表达,如颜色等底层特征,物体等中层特征,或者类别等高层特征。但不同的特征表达同一幅图像,捕捉着相同的潜在结构。这使得转变每一图像的不同特征得到所有视角一致的新的表达成为可能。

最近邻图像标注算法基于查询进行图像标注,在图像数据库一直动态变化的情况下仍适用。受此启发,我们的方法也是一种最近邻图像标注算法。我们提出的方法的关键在于:把标签特征作为图像的一个新特征,加入到视角特征中;找到一种联合分解方法将所有视角分解为基矩阵和系数矩阵,且所有视角的系数矩阵具有一致性。这也迫使每个视角去找到同一潜在概念。分解完成后,目标图像的标签由其近邻图像的标签基矩阵和目标图像的视角特征的系数矩阵重构。

因此,给定一张目标图像,我们(1)首先提取其视觉特征并找到它的最近邻图像集合,(2)在所有视角上进行非负矩阵分解(包括视觉特征和标签特征)。由测试图像的视角特征和每个视角的基矩阵得到的每个视角的视觉特征系数矩阵平均后,就得到一个唯一的系数向量。这个系数向量和标签基矩阵相乘,就得到了标签视角的系数矩阵,该标签系数矩阵给出了每一个标签的分值。

非负矩阵分解的目的是将一个矩阵分解为非负的基矩阵和系数矩阵。非负系数可以认为是对发现的基的软分配。在图像标注任务中,图像数据有多个视角的特征,需要对所有视角进行非负矩阵分解,而多个视角存在相同的潜在结构。我们需要在所有视角上加上约束,使得出现一个所有视角一致的潜在结构。这样,每个视角的对应位置的基代表相同的主题。在我们的工作中,我们将标签作为图像的一个视角,同样学习到标签的基矩阵,该标签基矩阵对应的基同样代表相同的潜在主题。注意:这些主题概念可能不含任何语义,只是抽象概念上的一致性。

图像标注中一个棘手的问题就是弱标签问题——部分标签出现频率特别低,导致这些标签的标注精度较低。为了解决这个问题,我们引进两个权重矩阵到MultiNMF框架中,增加稀缺标签和拥有稀缺标签的图像的重要性。通过增加适当的权重,NMF强迫学习到可以很好捕获稀缺标签的一致性潜在主题概念。

总的来说,我们在图像标注任务中使用MultiNMF为一个特定图像学习一个特定生成模型。矩阵分解在保证所有特征视角的系数矩阵一致性的情况下进行,这种做法优雅地解决了特征融合的问题。另外,我们引入权重矩阵增加稀缺标签的召回率,而不需要特定标签判别模型。该算法对现实世界中不断变化的数据库很有实际意义。

2 相关工作

对图像标注算法和NMF算法的一个介绍。将图像标注算法分为模型驱动和数据驱动两部分。

3 NMF-KNN算法

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐