文献阅读笔记——Boosting VLAD with Supervised Dictionary Learning and High-Order Statistics
2014-09-09 10:37
766 查看
本文由西南交通大学从事计算机视觉相关研究的博士生Xiaojiang Peng 发表在计算机视觉顶级会议ECCV 2014上。从标题可以看出,作者做了两件事情:
(1) 将高阶统计信息引入VLAD。对于字典中的每一个单词,VLAD统计样本上的局部描述子(如SIFT)落在该单词上的描述子与单词的残差累积量。近些年比较流行的做法采用intra-normalization,即对各个单词的残差累计量分别做L2归一化,然后再串成一个长的特征描述子。经过适当变形可发现,VLAD为一阶统计量(均值),一般可理解为样本所有描述子关于各个中心的均值与中心的偏移量。为增强VLAD特征的判别性本文增加了二阶统计量和三阶统计量,即对角协方差与偏斜(skewness)。其中偏斜刻画的是数据到样本中心的不对称性。
(2)字典的有监督学习。先通过kmeans聚类得到字典,然后利用带有标签的样本做字典的有监督学习(本质上是字典自适应)。通过构造成本函数,采用梯度下降法求解分类器参数w和字典D。
本文有些关于实验的细节之处值得注意,如在做VLAD之前先做PCA-whitening。本文提出的高阶统计量应当会带来不少引用。
(1) 将高阶统计信息引入VLAD。对于字典中的每一个单词,VLAD统计样本上的局部描述子(如SIFT)落在该单词上的描述子与单词的残差累积量。近些年比较流行的做法采用intra-normalization,即对各个单词的残差累计量分别做L2归一化,然后再串成一个长的特征描述子。经过适当变形可发现,VLAD为一阶统计量(均值),一般可理解为样本所有描述子关于各个中心的均值与中心的偏移量。为增强VLAD特征的判别性本文增加了二阶统计量和三阶统计量,即对角协方差与偏斜(skewness)。其中偏斜刻画的是数据到样本中心的不对称性。
(2)字典的有监督学习。先通过kmeans聚类得到字典,然后利用带有标签的样本做字典的有监督学习(本质上是字典自适应)。通过构造成本函数,采用梯度下降法求解分类器参数w和字典D。
本文有些关于实验的细节之处值得注意,如在做VLAD之前先做PCA-whitening。本文提出的高阶统计量应当会带来不少引用。
相关文章推荐
- Andrew Ng, High Speed Obstacle Avoidance using Monocular Visionand Reinforcement Learning阅读笔记
- 文献阅读笔记——group sparsity and geometry constrained dictionary
- Large-scale Learning with SVM and Convolutional Nets(经典文献阅读)
- 文献阅读笔记——group sparsity and geometry constrained dictionary
- 文献阅读笔记——Action Recognition with Stacked Fisher Vectors
- Taste and Aesthetics - A Conversation with Ken Arnold, Part II 阅读笔记
- 论文阅读笔记-CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
- 论文笔记 A Large Contextual Dataset for Classification,Detection and Counting of Cars with Deep Learning
- 笔记:Semi-supervised domain adaptation with subspace learning for visual recognition (cvpr15)
- Attention and Memory in Deep Learning and NLP(深度学习和NLP中的注意和记忆机制) 阅读笔记
- SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB model size阅读笔记
- 《Fast and Accurate Inference with Adaptive Ensemble Prediction in Image Classification阅读笔记
- Coursera机器学习课程笔记(1) Supervised Learning and Unsupervised Learning
- SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB model size阅读笔记
- Perfection and Simplicity A Conversation with Ken Arnold, Part I 阅读笔记
- professional asp.net 4 with c# and VB.net 阅读笔记
- 文献阅读笔记: Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes ---by 香蕉麦乐迪
- 学习笔记2 Supervised Learning and Optimization 之 Softmax Regression
- Theano-Deep Learning Tutorials 笔记:Modeling and generating sequences of polyphonic music with the RNN
- 笔记:Semi-supervised Domain Adaptation with Subspace Learning for Visual Recognition