您的位置:首页 > 其它

斯坦福I2V:一个用于以图搜视频的新闻视频数据集

2017-09-12 18:12 197 查看

Stanford I2V: A News Video Dataset for Query-by-Image Experiments

看论文的小记,留作备用

论文引用(GB/T 7714)

Araujo A, Chaves J, Chen D, et al. Stanford I2V: a news video dataset for query-by-image experiments[C]//Proceedings of the 6th ACM Multimedia Systems Conference. ACM, 2015: 237-242.

斯坦福I2V数据集中有3800个小时的新闻视频,分割成了84000多个视频片段,平均长度为2.7分钟,标注了229个ground-truth搜索结果,下载地址http://purl.stanford.edu/zx935qw7203.



视觉搜索的四种类型:

I2I:以图搜图,可用于移动设备的产品图片的搜索

V2V:以视频搜视频,通常用于在线视频分享网站的版权执法(copyright enforcement)

V2I:使用头戴相机时实现增强现实?

I2V:可用于广告监播,使用幻灯片搜索课程视频,组织和搜索个人视频集合或者是视频档案,将相关视频和特定事件做内容关联。

两种搜索场景:

1.使用一个视频中的完整一帧去搜索其他视频中的帧,找到位置。

2.使用一帧中的感兴趣区域去搜索其他帧中的感兴趣物体。

数据集的组织形式



3800多个小时的视频分割成84000多个视频片段(video clip),平均时长2.7分钟,每个clip都有数十个shot,一个clip对应于一个简单的新闻故事,相当于视频检索领域中的scene场景。

搜索过程



Scene Retrieval 场景检索

将最可能包含搜索图片的clip排序生成一个列表

使用了基于SCFV的模式,对于数据集中的每一个关键帧(一秒提取一帧)都生成一个全局的signature。在场景检索的过程中,得到一个关键帧的排序列表,从列表中得到前100个场景(场景的相似性分值:组成这个场景的所有关键帧的最高分值)。

Temporal Refinement 时间细化

如果用户对某一个搜索出的clip感兴趣,系统会返回这个clip中包含搜索图片的特定segments。对于每一个ground-truth clip,根据SCFV的signatures找到50个最相近的帧,然后使用特征匹配和RANSAC的方法找到待搜索图像之间的几何模型。

使用了the Internet Archive’s Wayback Machine来获取候选的待搜索图片,网址http://archive.org/web. 选出了两种类型的图片:第一种是标志性的图像?(iconic images),新闻中报导的事件的图片;第二种是《经济学人》和《时代》杂志的封面图片。

数据标注的方法



蓝色:自动 橙色:人工

对于数据集中的视频,每秒取一帧,计算SIFT特征和SCFV特征(SCFV:可伸缩的压缩费舍尔向量)

Feature-based Matching + RANSAC:使用SIFT论文(Lowe大神2004年那篇)中的特征匹配方法,随后用RANSAC的方法对特征匹配对做几何校验。

Approve matches manually:人工检验匹配结果。

SCFV-based search:虽然待搜索图片更可能出现在一个特定时间段的新闻视频中,但仍需保证它不会出现在数据集的其他视频中。使用了SCFV全局描述子(SCFV是北大提出的方法,采纳进了MPEG-7 CDVS标准中)。

Select matches manually:人工选择匹配结果。

Annotation of video sequences:略。

Post-processing:后处理,略。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐