您的位置:首页 > 产品设计 > UI/UE

Paper Reading - Snap and ask: Answering Multimodal Question by Naming Visual Instance

2013-07-14 23:11 465 查看
浏览ACM MM'12的full paper list, 看到了这个很有意思的标题——Snap and ask:Answering Multimodal Question by Naming Visual Instance. 这篇文章跟我们组的物体识别研究有关,所以读了一下这篇paper,下面先简单介绍一下文章内容,最后谈一下自己的一些启发。

文章简介

这篇文章介绍了一个跨模态的QA系统,系统框架是通过对查询图像查找相似图像,再通过这些相似图像对查询图像进行命名,然后将得到的物体名称跟查询的问题文本相结合,输入到Yahoo!Answers,通过匹配Yahoo!Answers系统数据库中相似的问题文本,得到多条相关的回答,最后对这些回答做re-ranking,把排序后的回答提交给用户。

整个系统的技术难点还是在于相似图像的查找,作者在文中使用了BoW的框架,在空间构型上使用了Delaunay Triangulation (DT)方法为图片上的视觉单词建模,这种方法可以使得没有点出现在构造的任意的三角形外接圆内。通过计算两张图中相同的边(所谓相同边,指的是这两条边顶点的视觉单词互相对应)占所有边的比例,就可以比较两张图片的相似性。

文章的实验部分通过和其他的空间构型方法做比较,验证了DT这种方法的优点,另外还通过用户调查的方法比较了Snap-and-Ask系统和Yahoo! Answers 的性能,显示出了该系统性能上的优势。

启发

该系统作为一项研究性的成果,局限性还是很明显的,特别是在对最终的回答进行重拍序的时候,所使用的句法树匹配的方法需要的时间太长,这就导致该系统的实时性很差。但也有很多亮点,比如在对查询图像进行命名后,用该名字替代查询文本中的“this”(例如查询图片是一个苹果,查询文本是“what is this?”系统在判断出图片是苹果后,就将查询文本改为“what is apple”),再跟数据库中的问题文本进行匹配,这个亮点也反映在了文章的标题里面。

对于物体识别的研究来说,这篇文章的方法对于非平面的表面和非刚性的物体有比较好的表现,这是near-duplicate方法和Google Goggles都难以做到的,这主要归功于该系统所使用的DT这种空间构型的方法,在以后的研究中可以作为参考。

Paper原文:http://vireo.cs.cityu.edu.hk/papers/mm12-zhang.pdf
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐