行人检测“Pedestrian Detection with Unsupervised Multi-Stage Feature Learning”
2015-10-20 14:22
971 查看
主要思想:
1.结合多步的全局特征及局部特征用来分类
2.使用卷积稀疏编预训练滤波器
现有的方法:
手动提取特征,如ICF,HOG及其变形和组合,使用可训练的分类器如SVM,boosted classifier或随机森林分类。
深层网络非监督预训练方法,包括RBM,stacked auto-encoders,stacked sparse auto-encoders.
非监督学习可以用来训练深层网络,文章使用前一层的输出,在每层训练了一个广义非监督模型,之后使用标记信息对多层系统进行有监督的更新。
分层模型
使用广义参数函数可以将输入映射到更高层的表示,文章使用稀疏卷积分层特征,每层的非监督模型包含一个卷积稀疏编码算法和一个预测函数。
非监督学习
稀疏编码能够从特征中提取有用的特征表示,稀疏编码是一个线性重建模型,使用overcomplete字典D∈Rm×nD\in \mathbb R^{m\times n},以及一个对混合系数z的规格化惩罚:
z∗=argminz||x−Dz||22+λs(z)z^*=arg min_z||x-Dz||^2_2+\lambda s(z) (1)
目标是获得对应输入的最优稀疏表示,s(z)的具体形式取决于稀疏编码算法,文中使用||⋅||1||\cdot||_1范数,并根据字典D最小化公式(1)
z∗,D∗=argminz,D||x−Dz||22+λ||z||1z^*,D^*=arg min_{z,D}||x-Dz||^2_2+\lambda ||z||_1
许多人使用稀疏字典学习表示图像,文中使用[20]提出的CPSD模型构建多级特征表示,形式与单层ConvNet类似:
f(x;g,k,b)=z^=z^jj=1...nf(x;g,k,b)=\hat {z}={\hat {z}_j}_{j=1...n}
z^j=gj×tanh(x⨂kj+bj)\hat {z}_j=g_j\times tanh(x\bigotimes k_j+b_j)
预测结果z^j\hat {z}_j是一系列特征图,灰度图像的卷积非监督能量为:
非监督学习是一个两步的坐标下降过程:
(1)Inference:参数W=D,g,k,bW={D,g,k,b}固定,最小化公式6获得最优的稀疏表示z∗z^*
(2)Update:固定z∗z^*,使用随机梯度更新权值W
每层的非监督训练算法为:
算法1的预测函数为:
(8)
使用反向图P进行重建:
(9)
非线性变换
包括absolute value rectification, local contrast normalization
and average down-sampling operations
训练N步多层模型的算法为:
多级特征
将低层输出分支到高层分类器,生成的特征可以同时提取全局特征及局部信息,如下图所示,第一级的输出在非线性变换,池化和下采样后产生分支。
实验结果
使用两个评价指标,错误率&虚警率,及Area Under Curve评价了几种不同方法的结果,包括ConvNet with variants of unsupervised (Convnet-U) and fullysupervised
training (Convnet-F) and multi-stage features (Convnet-U-MS and ConvNet-F-MS),结果对比如下:
1.结合多步的全局特征及局部特征用来分类
2.使用卷积稀疏编预训练滤波器
现有的方法:
手动提取特征,如ICF,HOG及其变形和组合,使用可训练的分类器如SVM,boosted classifier或随机森林分类。
深层网络非监督预训练方法,包括RBM,stacked auto-encoders,stacked sparse auto-encoders.
非监督学习可以用来训练深层网络,文章使用前一层的输出,在每层训练了一个广义非监督模型,之后使用标记信息对多层系统进行有监督的更新。
分层模型
使用广义参数函数可以将输入映射到更高层的表示,文章使用稀疏卷积分层特征,每层的非监督模型包含一个卷积稀疏编码算法和一个预测函数。
非监督学习
稀疏编码能够从特征中提取有用的特征表示,稀疏编码是一个线性重建模型,使用overcomplete字典D∈Rm×nD\in \mathbb R^{m\times n},以及一个对混合系数z的规格化惩罚:
z∗=argminz||x−Dz||22+λs(z)z^*=arg min_z||x-Dz||^2_2+\lambda s(z) (1)
目标是获得对应输入的最优稀疏表示,s(z)的具体形式取决于稀疏编码算法,文中使用||⋅||1||\cdot||_1范数,并根据字典D最小化公式(1)
z∗,D∗=argminz,D||x−Dz||22+λ||z||1z^*,D^*=arg min_{z,D}||x-Dz||^2_2+\lambda ||z||_1
许多人使用稀疏字典学习表示图像,文中使用[20]提出的CPSD模型构建多级特征表示,形式与单层ConvNet类似:
f(x;g,k,b)=z^=z^jj=1...nf(x;g,k,b)=\hat {z}={\hat {z}_j}_{j=1...n}
z^j=gj×tanh(x⨂kj+bj)\hat {z}_j=g_j\times tanh(x\bigotimes k_j+b_j)
预测结果z^j\hat {z}_j是一系列特征图,灰度图像的卷积非监督能量为:
非监督学习是一个两步的坐标下降过程:
(1)Inference:参数W=D,g,k,bW={D,g,k,b}固定,最小化公式6获得最优的稀疏表示z∗z^*
(2)Update:固定z∗z^*,使用随机梯度更新权值W
每层的非监督训练算法为:
算法1的预测函数为:
(8)
使用反向图P进行重建:
(9)
非线性变换
包括absolute value rectification, local contrast normalization
and average down-sampling operations
训练N步多层模型的算法为:
多级特征
将低层输出分支到高层分类器,生成的特征可以同时提取全局特征及局部信息,如下图所示,第一级的输出在非线性变换,池化和下采样后产生分支。
实验结果
使用两个评价指标,错误率&虚警率,及Area Under Curve评价了几种不同方法的结果,包括ConvNet with variants of unsupervised (Convnet-U) and fullysupervised
training (Convnet-F) and multi-stage features (Convnet-U-MS and ConvNet-F-MS),结果对比如下:
相关文章推荐
- jQuery 中bind(),live(),delegate(),on() 区别
- 浅谈jQuery事件源码定位问题
- add .json handler support in IIS 7
- "undefined reference to" 问题解决方法
- CSS背景靠右对齐,并且背景图片右边刘10px
- jQuery 获取屏幕高度、宽度
- 单节点配置SecondaryNameNode
- div边框加阴影效果的css
- Perfect Squares
- JS日期时间类型(Y-m-d H:i:s)与时间戳互转
- pdf怎么转换成html格式的文件
- js笔记 数组push和pop
- JSSE简介
- html 线条重叠变粗
- Node.js学习笔记之二:回调
- node.js全局变量console总结
- JavaScript基础2
- JS学习笔记一
- JavaScript中的property和attribute
- LeetCode(116) Populating Next Right Pointers in Each Node