您的位置：首页 > 产品设计 > UI/UE

Paper Reading - Snap and ask: Answering Multimodal Question by Naming Visual Instance

2013-07-14 23:11 465 查看

浏览ACM MM'12的full paper list, 看到了这个很有意思的标题——Snap and ask：Answering Multimodal Question by Naming Visual Instance. 这篇文章跟我们组的物体识别研究有关，所以读了一下这篇paper，下面先简单介绍一下文章内容，最后谈一下自己的一些启发。

文章简介

这篇文章介绍了一个跨模态的QA系统，系统框架是通过对查询图像查找相似图像，再通过这些相似图像对查询图像进行命名，然后将得到的物体名称跟查询的问题文本相结合，输入到Yahoo!Answers，通过匹配Yahoo!Answers系统数据库中相似的问题文本，得到多条相关的回答，最后对这些回答做re-ranking，把排序后的回答提交给用户。

整个系统的技术难点还是在于相似图像的查找，作者在文中使用了BoW的框架，在空间构型上使用了Delaunay Triangulation (DT)方法为图片上的视觉单词建模，这种方法可以使得没有点出现在构造的任意的三角形外接圆内。通过计算两张图中相同的边（所谓相同边，指的是这两条边顶点的视觉单词互相对应）占所有边的比例，就可以比较两张图片的相似性。

文章的实验部分通过和其他的空间构型方法做比较，验证了DT这种方法的优点，另外还通过用户调查的方法比较了Snap-and-Ask系统和Yahoo! Answers 的性能，显示出了该系统性能上的优势。

启发

该系统作为一项研究性的成果，局限性还是很明显的，特别是在对最终的回答进行重拍序的时候，所使用的句法树匹配的方法需要的时间太长，这就导致该系统的实时性很差。但也有很多亮点，比如在对查询图像进行命名后，用该名字替代查询文本中的“this”（例如查询图片是一个苹果，查询文本是“what is this?”系统在判断出图片是苹果后，就将查询文本改为“what is apple”），再跟数据库中的问题文本进行匹配，这个亮点也反映在了文章的标题里面。

对于物体识别的研究来说，这篇文章的方法对于非平面的表面和非刚性的物体有比较好的表现，这是near-duplicate方法和Google Goggles都难以做到的，这主要归功于该系统所使用的DT这种空间构型的方法，在以后的研究中可以作为参考。

Paper原文：http://vireo.cs.cityu.edu.hk/papers/mm12-zhang.pdf

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航