您的位置：首页 > 其它

斯坦福I2V：一个用于以图搜视频的新闻视频数据集

2017-09-12 18:12 197 查看

Stanford I2V: A News Video Dataset for Query-by-Image Experiments

看论文的小记，留作备用

论文引用（GB/T 7714)

Araujo A, Chaves J, Chen D, et al. Stanford I2V: a news video dataset for query-by-image experiments[C]//Proceedings of the 6th ACM Multimedia Systems Conference. ACM, 2015: 237-242.

斯坦福I2V数据集中有3800个小时的新闻视频，分割成了84000多个视频片段，平均长度为2.7分钟，标注了229个ground-truth搜索结果，下载地址http://purl.stanford.edu/zx935qw7203.

视觉搜索的四种类型：

I2I:以图搜图，可用于移动设备的产品图片的搜索

V2V:以视频搜视频，通常用于在线视频分享网站的版权执法（copyright enforcement）

V2I:使用头戴相机时实现增强现实？

I2V:可用于广告监播，使用幻灯片搜索课程视频，组织和搜索个人视频集合或者是视频档案，将相关视频和特定事件做内容关联。

两种搜索场景：

1.使用一个视频中的完整一帧去搜索其他视频中的帧，找到位置。

2.使用一帧中的感兴趣区域去搜索其他帧中的感兴趣物体。

数据集的组织形式

3800多个小时的视频分割成84000多个视频片段（video clip），平均时长2.7分钟，每个clip都有数十个shot，一个clip对应于一个简单的新闻故事，相当于视频检索领域中的scene场景。

搜索过程

Scene Retrieval 场景检索

将最可能包含搜索图片的clip排序生成一个列表

使用了基于SCFV的模式，对于数据集中的每一个关键帧（一秒提取一帧）都生成一个全局的signature。在场景检索的过程中，得到一个关键帧的排序列表，从列表中得到前100个场景（场景的相似性分值：组成这个场景的所有关键帧的最高分值）。

Temporal Refinement 时间细化

如果用户对某一个搜索出的clip感兴趣，系统会返回这个clip中包含搜索图片的特定segments。对于每一个ground-truth clip，根据SCFV的signatures找到50个最相近的帧，然后使用特征匹配和RANSAC的方法找到待搜索图像之间的几何模型。

使用了the Internet Archive’s Wayback Machine来获取候选的待搜索图片，网址http://archive.org/web. 选出了两种类型的图片：第一种是标志性的图像？（iconic images），新闻中报导的事件的图片；第二种是《经济学人》和《时代》杂志的封面图片。

数据标注的方法

蓝色：自动橙色：人工

对于数据集中的视频，每秒取一帧，计算SIFT特征和SCFV特征（SCFV：可伸缩的压缩费舍尔向量）

Feature-based Matching + RANSAC：使用SIFT论文（Lowe大神2004年那篇）中的特征匹配方法，随后用RANSAC的方法对特征匹配对做几何校验。

Approve matches manually：人工检验匹配结果。

SCFV-based search：虽然待搜索图片更可能出现在一个特定时间段的新闻视频中，但仍需保证它不会出现在数据集的其他视频中。使用了SCFV全局描述子（SCFV是北大提出的方法，采纳进了MPEG-7 CDVS标准中）。

Select matches manually：人工选择匹配结果。

Annotation of video sequences：略。

Post-processing：后处理，略。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 视频搜索以图搜视频斯坦福I2V 新闻视频搜索

相关文章推荐

新的分享

章节导航