您的位置：首页 > 产品设计 > 产品经理

DPM(Deformable Part Model) 模型结构的解释

2017-05-24 20:24 316 查看

关于可变部件模型的描述在作者[2010
PAMI]Object Detection with Discriminatively Trained Part Based Models的论文中已经有说明：

含有n个部件的目标模型可以形式上定义为一个(n+2)元组：(F0,P1,...,
Pn, b)，F0是根滤波器，Pi是第i个部件的模型，b是表示偏差的实数值。每个部件模型用一个三元组定义：(Fi,vi,
di)，Fi是第i个部件的滤波器；vi是一个二维向量，指定第i个滤波器的锚点位置(anchor position，即未发生形变时的标准位置)
相对于根的坐标；di是一个四维向量，指定了一个二次函数的参数，此二次函数表示部件的每个可能位置相对于锚点位置的变形花费(deformation cost)。

但是有了这个说明我们在看源码时还是会有很多不明白的地方，刚开始困扰我很长时间，经过一段时间的分析，有了一定的理解，下面是我对这个模型的分析，如有不妥之处，请大家留言指正。

我分析的源码版本是voc-release3.1，从第4版开始加入了语法模型，更加复杂了，这里不讨论。

分析模型结构体主要看initmodel.m这个文件，通过看他如何初始化模型，我们可以明白其中大多数字段的含义。

在这之前，我们可以在matlab中打开一两个源码中自带的训练好的模型m文件，看看是什么样的。

inria_final.mat，Inria数据集上训练的单组件模型

person_final.mat，VOC2007数据集上训练的2组件人体模型

下面我会依次对各个字段做详细解释

(1) sbin，整型标量

sbin是HOG特征中cell的尺寸，即cell的尺寸为sbin * sbin

定义cell是为了将像素级特征聚合成为基于cell的特征C(i,j),0<=i<=|(w-1)/k|,0<=j<=|(h-1)/k|,参见[2010
PAMI]论文6.1.2 空间聚合，这里的k就是cell尺寸sbin，这样可以更明确的理解sbin的用处。

(2) interval，整型标量

HOG金字塔每组的层数

(3) numblocks，整型标量

模型中总的数据块的个数

(4) numcomponents，整型标量

组件的个数(含多少个组件模型)

(5) blocksizes，double数组，长度等于numblock

blocksizes[]数组的元素个数等于numblock，指明每个数据块的大小，

所以，想知道哪个数据的大小，就先找到他的数据块标识，然后去blocksizes[]数组查找对应的数据块大小。

(6) regmult，double数组，长度等于numblock

还不清楚干什么的

(7) learnmult，double数组，长度等于numblock

还不清楚干什么的

(8) lowerbounds，cell类型数组，长度等于numblock

每个数据块的数据值的下界，lowerbounds[]数组的元素个数等于numblock。

假如某个数据块的数据是向量或矩阵的话，则对应的lowerbounds元素值也是一个下界向量或矩阵

(9) maxsize，二元组

所有组件的根滤波器的[高度宽度]的最大值，maxsize是统计所有组件的根滤波器的尺寸获得的。

(10) minsize，二元组

所有组件的根滤波器的[高度宽度]的最小值，minsize是统计所有组件的根滤波器的尺寸获得的。

(11) thresh，double类型标量

保证高召回率需要的得分阈值，根据训练结果计算得到的。

也就是说，如果用此模型进行目标检测时，将得分阈值设为thresh能够保证很高的召回率(recall rate)，但是同时精度肯定就低了。

(12) rootfilters，cell类型数组，长度为组件个数

根滤波器数组，其每个元素表示一个组件模型的根滤波器的信息，每个元素包括3个字段：

size：根滤波器的尺寸，以cell为单位，w*h

w：根滤波器的参数向量，维数为(w*h)*31

blocklabel：此根滤波器所在的数据块标识

(13) partfilters，cell类型数组，长度为模型中所有组件的部件的个数之和

部件滤波器数组，其每个元素表示一个部件滤波器的信息，每个元素包括4个字段，注意：所有组件的部件是连续编号的

w：部件滤波器的参数向量，维数为(w*h)*31

partner：此部件对应的伙伴部件(对称部件)的索引，如果partner的值为0，表示此部件没有伙伴部件。

fake：是否假部件，值为1表示此部件是假部件，假部件不需要blocklabel

blocklabel：此部件滤波器所在的数据块标识

(14) defs，cell类型数组，长度为模型中所有组件的部件的个数之和

部件的锚点数组 (变形信息数组)，每个元素表示对应部件的可变形信息。注意：所有组件的部件在defs中也是连续编号的。每个元素包含3个字段：

anchor：部件的锚点坐标，即部件未变形时的左上角点坐标，参见论文[2010 PAMI]中的公式(3)中的vi变量

w：w是一个四维向量，指明部件的变形花费函数的参数，参见论文[2010 PAMI]中的公式(2)中的di变量

blocklabel：所在的数据块标识

(15) offsets，cell类型数组，长度为组件个数

偏移量数组，每个元素表示对应组件模型的偏移量，每个元素又含有2个字段

w：组件的偏移量，是个实数值

blocklabel：所在的数据块标识

(16) components，cell类型数组，长度为组件个数

组件信息数组，每个元素存储一个组件模型的信息，每个元素又包含7个字段：

rootindex：根滤波器的索引，指出组件的根滤波器在rootfilters[]数组的位置

offsetindex：组件的偏移量索引，指出组件的偏移量在offsets[]数组的位置

part：组件的部件信息数组，长度为该组件的部件个数，每个元素表示一个部件，每个元素又有2个字段：

partindex：部件的索引，指出此部件在partfilters[]数组的位置，注意：所有组件的部件是连续编号的

defindex：部件的锚点数组索引，指出此部件的锚点在defs[]数组的位置，注意：所有组件的部件是连续编号的

dim：组件的维数(至于这个值具体是怎么计算来的，我现在还不清楚，弄清楚了来更新)

numblocks：组件所占的数据块个数(需要多少个数据块来存储此组件模型)

x1,y1,x2,y2：包围盒预测参数

一些需要解释的地方

关于模型中的blocklabel的理解说明：

模型中有好多数组，例如rootfilters[]，partfilters[]，defs[]，offsets[]，这些数组的数据是以块block为单位进行存储的，通过块标识blocklabel来识别哪个数据位于哪个块上，所以上述数组的每个成员都有一个blocklabel域，来指明此数据所在的块。numblock是总的数据块个数。blocksizes[]数组的元素个数等于numblock，指明每个数据块的大小，

所以，想知道哪个数据的大小，就先找到他的数据块标识，然后去blocksizes[]数组查找对应的数据块大小。

关于部件的伙伴partner的解释：

在voc-release3.1中，模型是关于中轴对称的，所以就有了伙伴部件(或称为对称部件)的概念。注意：从第4版开始模型不再要求是对称的。一个部件存在伙伴，就说明有和此部件对称的部件。伙伴部件的参数向量和此部件的参数向量w完全相同，一个部件和其伙伴部件是关于模型的中轴对称的，所以不需要重复存储参数向量w，这样，就产生了一些假(fake)部件，它们只有一个空壳。假部件(fake=1)没有blocklabel，因为它们不需要数据块来存储信息，它们的信息存储在对应的伙伴部件中。如果partner的值为0，表示此部件没有伙伴部件。

关于偏移量offset的解释：

偏移量offset就是加在每个组件模型的得分公式最后的一个实数值，参见论文[2010
PAMI]中的公式(2)中的b值。

关于锚点数组defs的解释：

一开始我以为def是定义definition的缩写，但解释不通，现在知道了，def是可变形deformable的缩写，所以defs数组中存储的是所有部件的变形参数。anchor，锚点坐标，是部件未发生移动时的坐标，即理想状况下的位置，更详细的说，anchor是部件未变形时的左上角点坐标。w，是个4维向量，指明部件i的变形花费函数的参数，参见论文[2010
PAMI]中的公式(2)中的di变量。通过分析源码发现w中4个参数分别对应这4个偏移量[Δx^2, Δx, Δy^2, Δy](分析可视化变形花费的代码时确定的，在文件visualizemodel.m中)。

关于每个cell的特征向量的维数为什么是31维的解释：

设C是聚合有9个对比度不敏感方向的像素级特征映射而获得的基于cell的特征映射，D是聚合有18个对比度敏感方向的像素级特征而获得的基于cell的特征映射。用4种不同的归一化方法对C(i,j)和D(i,j)进行归一化和截断(限幅)，可以获得一个4*(9+18)=108维的特征向量F(i,j)。实际中我们使用此108维向量的一个解析投影，此投影由下面几个统计量定义：27个在不同归一化因子上的累加和(即列的和)，F中的每个方向通道对应一个；以及4个在不同方向(9维对比度不敏感方向)上的累加和(即行的和)，每个归一化因子对应一个。cell尺寸k=8，截断(限幅)阈值α=0.2。最终的特征映射是31维向量G(i,j)，其中27维对应不同的方向通道(9个对比度不敏感方向和18个对比度敏感方向)，剩下4维表示(i,j)周围4个cell组成的block的梯度能量。详见[2010
PAMI]论文中6.2节 PCA和解析降维。

明白了这些，初始化的过程就很容易看懂了，初始化的过程在下面的源码上有注释：

[html] view
plaincopy

function model = initmodel(pos,
sbin, size)

% 初始化模型结构

% 参数

% pos：用来训练此模型的正样本数组

% sbin：HOG特征的最小单位，cell的长度

% size：根滤波器尺寸

% 如果不提供根滤波器的尺寸，则根据正样本的长宽比统计信息计算得出

%

% model = initmodel(pos,
sbin, size)

% Initialize model structure.

% If not supplied,the dimensions of the model template are computed from statistics in the postive examples.

%

% 关于cell尺寸sbin的解释：

% 将像素级特征聚合成为基于cell的特征C(i,j),0<=i<=|(w-1)/k|,0<=j<=|(h-1)/k|,参见[2010
PAMI]论文6.1.2 空间聚合，

% 这里的k就是cell尺寸sbin，这样可以更明确的理解sbin的用处

%

% 关于部件的伙伴partner的解释：

% 在voc-release3.1中，模型是关于中轴对称的，所以就有了伙伴部件(或称为对称部件)的概念。注意：从第4版开始模型不再要求是对称的。

% 一个部件存在伙伴，就说明有和此部件对称的部件。伙伴部件的参数向量和此部件的参数向量w完全相同，一个部件和其伙伴部件是关于模型的中轴对称的，

% 所以不需要重复存储参数向量w，这样，就产生了一些假(fake)部件，它们只有一个空壳。假部件(fake=1)没有blocklabel，因为它们不需要数据块来存储信息，

% 它们的信息存储在对应的伙伴部件中。如果partner的值为0，表示此部件没有伙伴部件。

%

% 关于每个cell的特征向量的维数为什么是31维的解释：

% 设C是聚合有9个对比度不敏感方向的像素级特征映射而获得的基于cell的特征映射，D是聚合有18个对比度敏感方向的像素级特征而获得的基于cell的特征映射。

% 用4种不同的归一化方法对C(i,j)和D(i,j)进行归一化和截断(限幅)，可以获得一个4*(9+18)=108维的特征向量F(i,j)。

% 实际中我们使用此108维向量的一个解析投影，此投影由下面几个统计量定义：

% 27个在不同归一化因子上的累加和(即列的和)，F中的每个方向通道对应一个；以及4个在不同方向(9维对比度不敏感方向)上的累加和(即行的和)，每个归一化因子对应一个。

% cell尺寸k=8，截断(限幅)阈值α=0.2。最终的特征映射是31维向量G(i,j)，其中27维对应不同的方向通道(9个对比度不敏感方向和18个对比度敏感方向)，

% 剩下4维表示(i,j)周围4个cell组成的block的梯度能量。详见[2010 PAMI]论文中6.2节 PCA和解析降维

%

% 关于模型中的blocklabel的理解说明：

% 模型中有好多数组，例如rootfilters[]，partfilters[]，defs[]，offsets[]，这些数组的数据是以块block为单位进行存储的，

% 通过块标识blocklabel来识别哪个数据位于哪个块上，所以上述数组的每个成员都有一个blocklabel域，来指明此数据所在的块。

% numblock是总的数据块个数(注意不是总的部件个数，刚开始理解错了)，blocksizes[]数组的元素个数等于numblock，指明每个数据块的大小，

% 所以，想知道哪个数据的大小，就先找到他的数据块标识，然后去blocksizes[]数组查找对应的数据块大小。

%

% 关于偏移量offset的解释：

% 偏移量offset就是加在每个组件模型的得分公式最后的一个实数值，参见论文[2010 PAMI]中的公式(2)中的b值

%

% 关于锚点坐标数组defs[]的解释：

% 一开始我以为def是定义definition的缩写，但解释不通，现在知道了，def是可变形deformable的缩写，所以defs数组中存储的是所有部件的变形参数

% anchor，锚点坐标，是部件未发生移动时的坐标，即理想状况下的位置，更详细的说，anchor是部件未变形时的左上角点坐标

% w，是个4维向量，指明部件i的变形花费函数的参数，参见论文[2010 PAMI]中的公式(2)中的di变量

% 通过分析源码发现w中4个参数分别对应这4个偏移量[Δx^2, Δx, Δy^2, Δy](分析可视化变形花费的代码时确定的，在文件visualizemodel.m中)

%

% model.sbin HOG cell的尺寸

% model.interval 金字塔每组的层数

% model.numblocks 总的数据块个数

% model.numcomponents 组件的个数(含多少个组件模型)

% model.blocksizes 每个数据块的大小，blocksizes[]数组的元素个数等于numblock

% model.regmult

% model.learnmult

% model.lowerbounds 每个数据块的数据值的下界，lowerbounds[]数组的元素个数等于numblock

%假如某个数据块的数据是向量或矩阵的话，则对应的lowerbounds元素值也是一个下界向量或矩阵

% model.maxsize 所有组件的根滤波器的[高度宽度]的最大值

% model.minsize 所有组件的根滤波器的[高度宽度]的最小值

% model.rootfilters{i} 组件i的根滤波器，根滤波器数组的长度等于组件个数

% .size 组件i的根滤波器的尺寸(以cell为单位)，w*h

% .w 组件i的根滤波器向量，维数为(w*h)*31

% .blocklabel 组件i的根滤波器所在的数据块标识

% model.partfilters{i} 第i个部件滤波器，部件滤波器数组的长度等于所有组件的部件个数的总和，注意：所有组件模型的part是连续编号的

% .w 第i个部件滤波器向量，维数为(w*h)*31

% .blocklabel 第i个部件滤波器所在的数据块标识

% model.defs{i} 第i个部件的锚点，部件锚点数组的长度等于所有组件的部件个数的总和，所有组件模型的part是连续编号的

% .anchor 第i个部件的锚点坐标，即部件i未变形时的左上角点坐标，参见论文[2010 PAMI]中的公式(3)中的vi变量

% .w w是一个四维向量，指明部件i的变形花费函数的参数，参见论文[2010 PAMI]中的公式(2)中的di变量

% .blocklabel 第i个部件的锚点所在的数据块标识

% model.offsets{i} 第i个组件的偏移量，偏移量数组的长度等于组件个数

% .w 第i个组件的偏移量，是个实数值

% .blocklabel 第i个组件的偏移量所在的数据块标识

% model.components{i} 第i个组件的信息

% .rootindex 第i个组件的根滤波器的索引，指出组件i的根滤波器在rootfilters[]数组的位置

% .parts{j} 第i个组件的第j个部件的信息

% .partindex 第i个组件的第j个部件的部件滤波器数组索引，指出在partfilters[]数组的位置，注意：所有组件模型的part是连续编号的

% .defindex 第i个组件的第j个部件的锚点坐标数组索引，指出在defs[]数组的位置，注意：所有组件模型的part是连续编号的

% .offsetindex 第i个组件的偏移量的索引，指出在offsets[]数组的位置

% .dim 第i个组件的维数

% .numblocks 第i个组件模型的数据块个数(需要多少个数据块来存储组件模型i)，所有组件的numblocks之和等于整个模型的numblocks

% 计算此组正样本典型的高宽比aspect

% pick mode of aspect ratios

h =
[pos(:).y2]' - [pos(:).y1]' + 1; % 所有正样本的高度数组

w =
[pos(:).x2]' - [pos(:).x1]' + 1; % 所有正样本的宽度数组

xx =
-2:.02:2;

filter = exp(-[-100:100].^2/400);

aspects = hist(log(h./w),
xx);

aspects = convn(aspects,
filter, 'same');

[peak, I] = max(aspects);

aspect = exp(xx(I));

% 选择根滤波器的面积(以像素为单位)

% pick 20 percentile area

areas = sort(h.*w);
% 对面积从小到大排序

area = areas(floor(length(areas)
* 0.2)); % 选择从小到大20%处的面积

area = max(min(area,
5000), 3000); % 面积最大值5000，最小值3000

% 根据以上计算出的高宽比和面积，得到根滤波器的高度和宽度(以像素为单位)

% pick dimensions

w = sqrt(area/aspect);
% 根的宽度(以像素为单位)，area=w*h，aspect=h/w,所以area/aspect =
(w*h)*(w/h) = w^2

h = w*aspect;
% 根的高度(以像素为单位)

% HOG cell的尺寸，默认为8

% size of HOG features

if nargin < 4

model.sbin = 8;

else

model.sbin = sbin;

end

% 设定根滤波器尺寸(以cell为单位)

% size of root filter

if nargin < 5

model.rootfilters{1}.size =
[round(h/model.sbin) round(w/model.sbin)]; % 以像素为单位的根的尺寸除以cell的尺寸，等于以cell为单位的根的尺寸

else

model.rootfilters{1}.size = size;

end

% 初始化偏移量数组

% 偏移量offset就是加在每个组件模型的得分公式最后的一个实数值，参见论文[2010 PAMI]中的公式(2)中的b值

model.offsets{1}.w = 0;
% 组件1的偏移量的初始值设为0

model.offsets{1}.blocklabel = 1;
% 组件1的偏移量的块标识，值为1表明组件1的偏移量是模型中的第一个数据块

model.blocksizes(1) = 1; % 第一个数据块的大小，值为1，因为只用来存储组件1的偏移量，即一个实数值

model.regmult(1) = 0;

model.learnmult(1) = 20;

model.lowerbounds{1} = -100; % 第一个数据块的数据值的下界,-100

% 初始化根滤波器数组

model.rootfilters{1}.w = zeros([model.rootfilters{1}.size
31]); % 组件1的初始根滤波器的向量值为全0

height = model.rootfilters{1}.size(1);
% 组件1的根滤波器的高度

% root filter is symmetric 注意：根滤波器是左右对称的

width = ceil(model.rootfilters{1}.size(2)/2);
% 组件1的根滤波器的宽度的一半

model.rootfilters{1}.blocklabel = 2;
% 组件1的根滤波器的块标识

model.blocksizes(2) = width * height * 31; % 存储组件1的根滤波器的数据块(第二个数据块)的大小，由于根滤波器是左右对称的，所以是h*(w/2)*31

model.regmult(2) = 1;

model.learnmult(2) = 1;

model.lowerbounds{2} = -100*ones(model.blocksizes(2),1); % 第二个数据块的值的下界，-100

% 初始化组件模型

% set up one component model

model.components{1}.rootindex = 1;
% 组件1的根滤波器数组索引

model.components{1}.offsetindex = 1;
% 组件1的偏移量数组索引

model.components{1}.parts =
{}; % 组件1的部件信息，当前为空

model.components{1}.dim = 2 +
model.blocksizes(1) + model.blocksizes(2); % 组件1的模型参数向量维数

model.components{1}.numblocks = 2;
% 组件1的数据块个数

% 初始化剩下的模型参数

% initialize the rest of the model structure

model.interval = 10;
% 金字塔每组的层数

model.numcomponents = 1;
% 模型的组件个数

model.numblocks = 2;
% 模型的总的数据块个数

model.partfilters =
{}; % 部件滤波器数组

model.defs =
{}; % 部件锚点数组

model.maxsize = model.rootfilters{1}.size;
% 所有组件的根滤波器的最大值

model.minsize = model.rootfilters{1}.size;
% 所有组件的根滤波器的最小值

相关链接

Deformable Part Model 相关网页：http://www.cs.berkeley.edu/~rbg/latent/index.html

Pedro Felzenszwalb的个人主页：http://cs.brown.edu/~pff/

PASCAL VOC 目标检测挑战：http://pascallin.ecs.soton.ac.uk/challenges/VOC/

A
Discriminatively Trained, Multiscale, Deformable Part Model [CVPR 2008] 中文翻译

Object
Detection with Discriminatively Trained Part Based Models [PAMI 2010]中文翻译

有关可变形部件模型(Deformable
Part Model)的一些说明

在Windows下运行Felzenszwalb的Deformable
Part Models(voc-release4.01)目标检测matlab源码

在Windows下运行Felzenszwalb的star-cascade
DPM(Deformable Part Models)目标检测Matlab源码

在windows下运行Felzenszwalb的Deformable
Part Model(DPM)源码voc-release3.1来训练自己的模型

用DPM(Deformable
Part Model，voc-release3.1)算法在INRIA数据集上训练自己的人体检测模型

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

DPM(Deformable Part Model) 模型结构的解释

关于可变部件模型的描述在作者[2010PAMI]Object Detection with Discriminatively Trained Part Based Models的论文中已经有说明：

关于可变部件模型的描述在作者[2010
PAMI]Object Detection with Discriminatively Trained Part Based Models的论文中已经有说明：