您的位置：首页 > 理论基础

计算机视觉中video understanding领域有什么研究方向和比较重要的成果

2017-12-20 16:50 381 查看

转自：https://www.zhihu.com/question/64021205

ideo understand，是属于visual analysis的第三个层次，比较high-level的研究方向。

1）最基础的video classification，从相应数据集来看，比如sport1m，hmdb51，activity-net等，大都属于运动/行为类型的类别，所以，video classification和action recognition有很多的overlap(当然 action recognition 从人的动作监督信息可以分为 skeleton based 和non-skeleton based)

研究人员大多从两方面去展开:

1.c3d，3d卷积同时学习每帧图像上的行为信息和短时间序列上的行为信息。

2.two stream，帧stream+光流stream+ensemble的方法，方别学习帧图像上的行为信息和短时序列上的行为信息。

cvpr17有文章把二者结合也做了文章(其实也没比TSN好)

2）video temporal activity detection，即在时间序列上检测事件的起始时间，主要用于untrimmed video data，数据集比如activity-net有相应的标记信息，即事件的开始和结束的时间点信息。

主要看到过有两类方法:

1.强化学习，从首帧开始往后做识别，强化学习用于学习选择跳过的帧数。

2.video clips proposal，类似于检测里面的region proposal，该方法是将视频中的短片段抽取特征，然后作为candidate送入后面的决策网络

3）event detection，比如trecvid 每年举办的比赛里的multimedia event detection(MED)，在几十万各种各样的视频中，包含有指定(复杂)事件的一些视频，需要用算法找出最可能包含这些事件的视频。这其中根据训练数据的数量分为100x，10x，0x，前两者属于non-zero-shot learning，所以一般会使用提取特征+训练分类器的方法去做，做工作的地方会主要在特征提取的环节。后者0x是没有训练数据的，需要从事件的语义信息中去找事件组成子元素(concept怎么翻译
)，然后通过易得的其他数据中训练这些子元素，再去视频中找他们。

这个任务很难，特别是一些很复杂却又不好和相近类别分开的事件(比如med里有个事件是”做木制手艺活”)

4）video captioning，对指定的视频输出一段描述文字。从早期的cnn+rnn的结构，即帧图像特征提取+建立文字序列结构到现在各种新方法的探索，现在已经能做的很不错了。当然仍有很大的空间。类似的topic还有很多，比如video2doc(一段文字描述，如果没记错的话，有这么一篇文章)，video2vec，加上seq2seq，又可以转到新的表达形式。

------------------------------------------------------------------------------------------------------------------------------

我觉得video understanding 分为下面四类：

1）.video classification ，或者是action recognition. 常用数据集小的有UCF101，HMDB51,中等的有ActivityNet ,Thumos 2014, 大规模的有 Deepmind 的Kinetics，Tewnety-BN的something-something, 谷歌的AVA，当然还有李菲菲的sports-1M。sports-1M 有1百万个视频，但不是人工标注的。现阶段这个任务的performance 趋于饱和了，ucf101 上 i3d 做到了98%，activityNet
16年的map 就被liming wang 做到了90+，今年又高了一些。这个任务上的工作已不太好做。这里建议刚入门或者设备不足的先从HMDB和UCF做起。 Sports-1m最好放弃，大的我下载不下来。。。。。

这个任务最好的performance 都是基于two-stream的，two-stream 最大的缺点是要提取光流，而光流是很难实时提取的。还有一类方法就是用3D卷积来取代光流捕捉motion 信息，这种方法performance一般没有two-stream 高但速度相对来说快一些。

我个人觉得 3d-cnn的参数多，拟合能力强，当数据集小的时候拟合的效果很好，如i3d在ucf101上acc 98%, 但是大数据集就不行了，比如在kinetics上 i3d 还是不如 two-stream(resnet152)。此外3d-cnn 一个大的缺点是参数多，deep 的model size会越来越大，难训也训得慢，msra的 iccv17的p3d 一定程度缓解了这个问题，但在各个数据集上 performance还是不如 two-stream.

顺便吐槽下RNN来捕捉时序信息做action recognition，虽然道理讲得通，但我发现加RNN（LSTM）的做法大多不是很work,提升的很少，比如LRCN等，暂时还没见到用RNN取得一个impressive的performance。欢迎指正。

2）.activity localization 或者是action detection.就是从一个十分钟的视频中找出事件发生的起止时间，这个任务基于上面的那个任务，这个的map还比较低，最厉害的应该是iccv17 cuhk的ssn. 还有基于c3D 的一系列工作；R-C3D,CDC. 当然还有又增强学习做的，李菲菲组有一篇cvpr就用了增强学习，但是准确率并不高。这个任务还大有做头，常用的数据集上thoumos14和activityNet. 以上所说的ssn(pytorch),R-C3D(caffe),CDC(caffe),lifeifei的增强学习(torch)
四个工作都已开源了code.

3) 第三个任务就是video和NLP结合了，如video caption ,video QA, video QA 感觉做的不如video caption 多，caption 这个任务 msra 的meitao 老师做的很多也很好，据说用到了微软小冰里面。

4）第四个任务就是video的piexl semantic classfication, 比如video semantic segmentation,也叫作video scene pharsing,(视频场景解析)。常用的数据集有camVid 和cityscape，就是把图片的语义分割拓展到了video.，这个可以用到自动驾驶领域，所以Facebook，腾讯都有做这个任务，iccv17上有一系列他们的工作，貌似idea有一些比较像的地方。估计是英雄所见略同吧。还有一个任务是video object
segmentation, cvpr16上提了一个数据集DAVIS。貌似还办了个比赛
DAVIS: Densely Annotated VIdeo Segmentation。

博士期间的研究领域比较靠近这个方向，来说一下自己的理解，视频分析从浅到深大概的历史进程是：

Video Segmentation
不论是比较传统的光流还是基于anchor的proposal network或者是其他的一些方法，由于长视频本身的复杂性，在时间序列上将视频分割成更加单一的clip再进行下一步的处理都是极有必要的。

Activity Detection
在segmentation的基础上，最为常见的一个应用是Temporal Activity Detection，Activity在时间序列上的检测就像Object在图像的空间维度上的检测，也是一个非常重要的任务。

推荐：CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization
in Untrimmed Videos

Video Caption
Video Caption是Image Caption的升级版，针对一段视频生成一句（段）描述性语句，不仅要求视频在时间序列上的合理分割，还要求对每段clip的视觉内容做caption之后合理整合，难度更大。

推荐：Hierarchical Recurrent Neural Encoder for Video Representation with Application to
Captioning

Video Question Answering
前面三点在

@qjzhao

的回答中已经解释得很详细了，由于做的人太多，我也没有办法评价谁是最好的，列出的paper是我觉得还算比较新的，我打算主要讲讲Video Question Answering。

Video QA是很新的一个topic，Video QA是Image QA（也就是常说的VQA）的升级版，它可以看成是一种检索，输入的Question就是检索的关键词和限定条件，但是同时又对Video
Analysis有很高的要求。

如

@ddj

所言，现在的Video QA刚起步，做的人还很少，现在在dblp上能够搜到的论文不是很多，基本上还是在各种新方法的尝试阶段。比如IJCAI 17的Video Question Answering
via Hierarchical Spatio-Temporal Attention Networks，这篇是比较典型的时空注意力机制的应用，由于视频的时空特性，多层注意力机制的强大表现力是可预见的。另外，SIGIR 17的Video
Question Answering via Attribute-Augmented Attention Network Learning，这篇文章引入了Attribute概念，加强了frame-level的Video Representation，也同样采用了Temporal Attention的方法；而MM 17的Video
Question Answering via Gradually Refined Attention over Appearance and Motion这篇文章则通过结合Appearance和Motion两个通道的不同Attention来加强问题和视频表达间的联系，再通过RNN cell的变体AMU来对问题进行处理。现有的Video QA基本都还逃不开spatio-temporal
model，还有许多值得探索的地方，随着现在数据集慢慢成熟，可以入场了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航