Paper Reading - Snap and ask: Answering Multimodal Question by Naming Visual Instance
2013-07-14 23:11
465 查看
浏览ACM MM'12的full paper list, 看到了这个很有意思的标题——Snap and ask:Answering Multimodal Question by Naming Visual Instance. 这篇文章跟我们组的物体识别研究有关,所以读了一下这篇paper,下面先简单介绍一下文章内容,最后谈一下自己的一些启发。
文章简介
这篇文章介绍了一个跨模态的QA系统,系统框架是通过对查询图像查找相似图像,再通过这些相似图像对查询图像进行命名,然后将得到的物体名称跟查询的问题文本相结合,输入到Yahoo!Answers,通过匹配Yahoo!Answers系统数据库中相似的问题文本,得到多条相关的回答,最后对这些回答做re-ranking,把排序后的回答提交给用户。
整个系统的技术难点还是在于相似图像的查找,作者在文中使用了BoW的框架,在空间构型上使用了Delaunay Triangulation (DT)方法为图片上的视觉单词建模,这种方法可以使得没有点出现在构造的任意的三角形外接圆内。通过计算两张图中相同的边(所谓相同边,指的是这两条边顶点的视觉单词互相对应)占所有边的比例,就可以比较两张图片的相似性。
文章的实验部分通过和其他的空间构型方法做比较,验证了DT这种方法的优点,另外还通过用户调查的方法比较了Snap-and-Ask系统和Yahoo! Answers 的性能,显示出了该系统性能上的优势。
启发
该系统作为一项研究性的成果,局限性还是很明显的,特别是在对最终的回答进行重拍序的时候,所使用的句法树匹配的方法需要的时间太长,这就导致该系统的实时性很差。但也有很多亮点,比如在对查询图像进行命名后,用该名字替代查询文本中的“this”(例如查询图片是一个苹果,查询文本是“what is this?”系统在判断出图片是苹果后,就将查询文本改为“what is apple”),再跟数据库中的问题文本进行匹配,这个亮点也反映在了文章的标题里面。
对于物体识别的研究来说,这篇文章的方法对于非平面的表面和非刚性的物体有比较好的表现,这是near-duplicate方法和Google Goggles都难以做到的,这主要归功于该系统所使用的DT这种空间构型的方法,在以后的研究中可以作为参考。
Paper原文:http://vireo.cs.cityu.edu.hk/papers/mm12-zhang.pdf
文章简介
这篇文章介绍了一个跨模态的QA系统,系统框架是通过对查询图像查找相似图像,再通过这些相似图像对查询图像进行命名,然后将得到的物体名称跟查询的问题文本相结合,输入到Yahoo!Answers,通过匹配Yahoo!Answers系统数据库中相似的问题文本,得到多条相关的回答,最后对这些回答做re-ranking,把排序后的回答提交给用户。
整个系统的技术难点还是在于相似图像的查找,作者在文中使用了BoW的框架,在空间构型上使用了Delaunay Triangulation (DT)方法为图片上的视觉单词建模,这种方法可以使得没有点出现在构造的任意的三角形外接圆内。通过计算两张图中相同的边(所谓相同边,指的是这两条边顶点的视觉单词互相对应)占所有边的比例,就可以比较两张图片的相似性。
文章的实验部分通过和其他的空间构型方法做比较,验证了DT这种方法的优点,另外还通过用户调查的方法比较了Snap-and-Ask系统和Yahoo! Answers 的性能,显示出了该系统性能上的优势。
启发
该系统作为一项研究性的成果,局限性还是很明显的,特别是在对最终的回答进行重拍序的时候,所使用的句法树匹配的方法需要的时间太长,这就导致该系统的实时性很差。但也有很多亮点,比如在对查询图像进行命名后,用该名字替代查询文本中的“this”(例如查询图片是一个苹果,查询文本是“what is this?”系统在判断出图片是苹果后,就将查询文本改为“what is apple”),再跟数据库中的问题文本进行匹配,这个亮点也反映在了文章的标题里面。
对于物体识别的研究来说,这篇文章的方法对于非平面的表面和非刚性的物体有比较好的表现,这是near-duplicate方法和Google Goggles都难以做到的,这主要归功于该系统所使用的DT这种空间构型的方法,在以后的研究中可以作为参考。
Paper原文:http://vireo.cs.cityu.edu.hk/papers/mm12-zhang.pdf
相关文章推荐
- Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
- 论文笔记 :Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- 阅读笔记(Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)
- Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- 论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
- #Paper Reading# Clustering by fast search and find of density peaks
- Dynamic Memory Networks for Visual and Textual Question Answering
- [Paper Reading]--Joint multi-model representations for e-commerce catalog search driven by visual
- #Paper Reading# Summarizing Answers in Non-Factoid Community Question-Answering
- 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri
- paper reading——《Improving Person Re-identification by Attribute and Identity Learning》
- 论文阅读:Learning Visual Question Answering by Bootstrapping Hard Attention
- Reading Note: Gated Self-Matching Networks for Reading Comprehension and Question Answering
- (reading)Revisiting Visual Question Answering Baselines
- Creating and Using a COM Object by Using Visual Studio 2005
- 论文笔记: Hierarchical Question-Image Co-Attention for Visual Question Answering
- 论文笔记:Visual Question Answering as a Meta Learning Task
- How to Read and Understand a Scientific Paper: A Step-by-Step Guide for Non-Scientists
- End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering
- Hierarchical Question-Image Co-Attention for Visual Question Answering