您的位置：首页 > Web前端

行人检测“Pedestrian Detection with Unsupervised Multi-Stage Feature Learning”

2015-10-20 14:22 971 查看

主要思想：

1.结合多步的全局特征及局部特征用来分类

2.使用卷积稀疏编预训练滤波器

现有的方法：

手动提取特征，如ICF，HOG及其变形和组合，使用可训练的分类器如SVM，boosted classifier或随机森林分类。

深层网络非监督预训练方法，包括RBM,stacked auto-encoders,stacked sparse auto-encoders.

非监督学习可以用来训练深层网络，文章使用前一层的输出，在每层训练了一个广义非监督模型，之后使用标记信息对多层系统进行有监督的更新。

分层模型

使用广义参数函数可以将输入映射到更高层的表示，文章使用稀疏卷积分层特征，每层的非监督模型包含一个卷积稀疏编码算法和一个预测函数。

非监督学习

稀疏编码能够从特征中提取有用的特征表示，稀疏编码是一个线性重建模型，使用overcomplete字典D∈Rm×nD\in \mathbb R^{m\times n}，以及一个对混合系数z的规格化惩罚：

z∗=argminz||x−Dz||22+λs(z)z^*=arg min_z||x-Dz||^2_2+\lambda s(z) （1）

目标是获得对应输入的最优稀疏表示，s(z)的具体形式取决于稀疏编码算法，文中使用||⋅||1||\cdot||_1范数，并根据字典D最小化公式（1）

z∗,D∗=argminz,D||x−Dz||22+λ||z||1z^*,D^*=arg min_{z,D}||x-Dz||^2_2+\lambda ||z||_1

许多人使用稀疏字典学习表示图像，文中使用[20]提出的CPSD模型构建多级特征表示，形式与单层ConvNet类似：

f(x;g,k,b)=z^=z^jj=1...nf(x;g,k,b)=\hat {z}={\hat {z}_j}_{j=1...n}

z^j=gj×tanh(x⨂kj+bj)\hat {z}_j=g_j\times tanh(x\bigotimes k_j+b_j)

预测结果z^j\hat {z}_j是一系列特征图，灰度图像的卷积非监督能量为：

非监督学习是一个两步的坐标下降过程：

(1)Inference:参数W=D,g,k,bW={D,g,k,b}固定，最小化公式6获得最优的稀疏表示z∗z^*

(2)Update:固定z∗z^*，使用随机梯度更新权值W

每层的非监督训练算法为：

算法1的预测函数为：

（8）

使用反向图P进行重建：

（9）

非线性变换

包括absolute value rectification, local contrast normalization

and average down-sampling operations

训练N步多层模型的算法为：

多级特征

将低层输出分支到高层分类器，生成的特征可以同时提取全局特征及局部信息，如下图所示，第一级的输出在非线性变换，池化和下采样后产生分支。

实验结果

使用两个评价指标，错误率&虚警率，及Area Under Curve评价了几种不同方法的结果，包括ConvNet with variants of unsupervised (Convnet-U) and fullysupervised

training (Convnet-F) and multi-stage features (Convnet-U-MS and ConvNet-F-MS)，结果对比如下：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航