您的位置：首页 > 理论基础

一个生成自然场景视频模型的基线

2018-02-27 10:18 190 查看

Video（Language）Modeling： A Baseline for Generative Models of Natural Videos
从自然语言处理的经典方法中获得启示，例如 n-grams， neural net language models (Bengio et al., 2003) 和recurrent neural networks(Mikolov et al., 2010)等等。关注的任务包括generation 和filling task，应该就对应现在常说的extrapolation 和 interpolation 任务了。

核心观点：

1. 生成模型的计算最后都会归结到对词序列（X1, X2, ... , Xt）的联合概率分布的估计:

，文中给出三种估计方法（1）n-grams
waiting……
（2）neural net language models
waiting……
（3）recurrent neural networks（RNN） [译] 理解 LSTM 网络已经把RNN和LSTM解释得非常好了，不再赘述。2. 将自然语言处理的生成模型迁移到视频的生成上迁移的过程中需要进行一些调整：
（1）语句是由单词构成的，因此是离散的，但视频在空间和时间上都是连续的，无法直接用，有两种方法进行调整：
a. 运用MSR替代交叉熵loss;
b. 将视频离散成帧来处理.
a容易导致模型为了得到较低的重建误差而仅仅模糊最后一帧（导致为了减小误差而产生模糊的帧图像），因此选用b。

(2) 词语构成词典后得到的序列可以是整数集合，在视频生成中使用一个非常系数的特征空间来替代词典，使用k-means方法对人为确定尺寸后的patch进行编码。虽然这种稀疏执行对于什么是可行的重构有很强的约束，因为k-means atoms会将输出空间参数化。但是，视频预测问题反而是更简单的，因为视频模型只需要决定下一个预测应该在输出空间的哪个位置。另一方面，即使选用的质心不大，但在图像或视频序列中合理地出现的质心组合是个庞大的集合，因此预测仍然具有意义。

实验方法：

两种任务：预测中间的若干帧（filling）、预测后面帧（generation）
数据集：UCF-101 DATASET、van Hateren's dataset

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 视频预测深度学习计算机视觉

相关文章推荐

新的分享

章节导航