斯坦福I2V:一个用于以图搜视频的新闻视频数据集
2017-09-12 18:12
197 查看
Stanford I2V: A News Video Dataset for Query-by-Image Experiments
看论文的小记,留作备用论文引用(GB/T 7714)
Araujo A, Chaves J, Chen D, et al. Stanford I2V: a news video dataset for query-by-image experiments[C]//Proceedings of the 6th ACM Multimedia Systems Conference. ACM, 2015: 237-242.
斯坦福I2V数据集中有3800个小时的新闻视频,分割成了84000多个视频片段,平均长度为2.7分钟,标注了229个ground-truth搜索结果,下载地址http://purl.stanford.edu/zx935qw7203.
视觉搜索的四种类型:
I2I:以图搜图,可用于移动设备的产品图片的搜索
V2V:以视频搜视频,通常用于在线视频分享网站的版权执法(copyright enforcement)
V2I:使用头戴相机时实现增强现实?
I2V:可用于广告监播,使用幻灯片搜索课程视频,组织和搜索个人视频集合或者是视频档案,将相关视频和特定事件做内容关联。
两种搜索场景:
1.使用一个视频中的完整一帧去搜索其他视频中的帧,找到位置。
2.使用一帧中的感兴趣区域去搜索其他帧中的感兴趣物体。
数据集的组织形式
3800多个小时的视频分割成84000多个视频片段(video clip),平均时长2.7分钟,每个clip都有数十个shot,一个clip对应于一个简单的新闻故事,相当于视频检索领域中的scene场景。
搜索过程
Scene Retrieval 场景检索
将最可能包含搜索图片的clip排序生成一个列表
使用了基于SCFV的模式,对于数据集中的每一个关键帧(一秒提取一帧)都生成一个全局的signature。在场景检索的过程中,得到一个关键帧的排序列表,从列表中得到前100个场景(场景的相似性分值:组成这个场景的所有关键帧的最高分值)。
Temporal Refinement 时间细化
如果用户对某一个搜索出的clip感兴趣,系统会返回这个clip中包含搜索图片的特定segments。对于每一个ground-truth clip,根据SCFV的signatures找到50个最相近的帧,然后使用特征匹配和RANSAC的方法找到待搜索图像之间的几何模型。
使用了the Internet Archive’s Wayback Machine来获取候选的待搜索图片,网址http://archive.org/web. 选出了两种类型的图片:第一种是标志性的图像?(iconic images),新闻中报导的事件的图片;第二种是《经济学人》和《时代》杂志的封面图片。
数据标注的方法
蓝色:自动 橙色:人工
对于数据集中的视频,每秒取一帧,计算SIFT特征和SCFV特征(SCFV:可伸缩的压缩费舍尔向量)
Feature-based Matching + RANSAC:使用SIFT论文(Lowe大神2004年那篇)中的特征匹配方法,随后用RANSAC的方法对特征匹配对做几何校验。
Approve matches manually:人工检验匹配结果。
SCFV-based search:虽然待搜索图片更可能出现在一个特定时间段的新闻视频中,但仍需保证它不会出现在数据集的其他视频中。使用了SCFV全局描述子(SCFV是北大提出的方法,采纳进了MPEG-7 CDVS标准中)。
Select matches manually:人工选择匹配结果。
Annotation of video sequences:略。
Post-processing:后处理,略。
相关文章推荐
- Druid:一个用于大数据实时处理的开源分布式系统
- Druid:一个用于大数据实时处理的开源分布式系统
- 基于Retrotfit2.1+Material Design+ijkplayer开发的一个APP(新闻,gif 动图,视频播放)
- 假设用一个名为text的字符串向量存放文本文件的数据,其中的元素或者是一句话或者是一个用于表示段分隔的空字符串。将text中第一段全改为大写形式
- Gobblin--一个用于Hadoop的统一"数据抽取框架"
- Spark新年福音:一个用于大规模数据科学的API——DataFrame
- 写了一条Sybase SQL语句,用于生成一个表中所有数据的插入记录的生成
- JAVA入门学习-学习如何自定义一个实体类,用于存储一组数据。
- Druid:一个用于大数据实时处理的开源分布式系统
- Druid:一个用于大数据实时处理的开源分布式系统
- Jsoup抓取网页数据完成一个简易的Android新闻APP
- Hadoop 和Mongodb是否能用于存储实时视频数据
- Druid:一个用于大数据实时处理的开源分布式系统之是什么
- 编写一个密码类,其中包含一个 str 密码字符串私有成员数据,一个“==”运算 符重载成员函数,用于比较用户输入的密码是否正确。并用数据测试该类。
- SQL : 一个存储过程,用于向指定的MS SQL Table中导入CSV 格式的文件数据
- (待求证)更正老师免费视频里“类型化DataSet批量插入数据”的一个不right的地方
- 一个完整的用于追踪数据改变的解决方案
- C/C++写得一个计时器用于检查程序的处理数据性能
- 读“一个完整的用于追踪数据改变的解决方案”
- iOS-从相册选中一个视频并拿到视频的元数据