您的位置：首页 > 其它

车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”

2017-08-01 11:41 513 查看

Deep Many Task，同时进行车辆检测，部件定位，可视化特征描述及3D维度估计。基于coarse-to-fine的目标proposal结构提升检测性能。Deep MANTA可以定位不可见的车辆部位。

应用

3D车辆定位和方向估计可用于估计车辆速度和方向。

论文第一个贡献是使用车辆特征点编码3D车辆信息，车辆是刚性的，可通过回归的方法预测隐藏的部分。结合3D数据集，将3D点投影到2D图像中的车辆上，选取最佳的3D模型。

第二个贡献是Deep Many-Task CNN，网络输出2Dbbox，part visibility及3D车辆模板。

第三个贡献是使用3D模型（几何信息，可视性）生成真实图像的标记。

Deep MANTA

首先，输入图像经过Deep MANTA输出2Dbbox，车辆几何特征（车辆部件坐标、3D模板相似度）及part可视性属性。然后，inference阶段使用Deep MANTA的输出和3D车辆数据集复原3D方向和位置。

3D形状及模板数据集

3D数据集包含几种类型车辆的3D模型（Sedan，SUV），对每个3D模型m，标记N个顶点（3D块）。这些块对应相应的车辆区域。使用坐标点集S3dm=(p1,p2,...,pN)表示3D形状，其中pk=xk,yk,zk表示kth部分的3D坐标。3D模型的3D模板定义为t3Dm=(wm,hm,lm)。3D数据库示意图如下所示：

2D/3D车辆模型

模型如下表示：(B,B3d,S,S3d,V)

其中，B是2D的车辆bbox，B3d=(cx,cy,cz,θ,t)是3D bbox。S是2D部件坐标，S3d是车辆3D 部件坐标。V={v_k}是part visibility向量，可视性分四类：（1）部件可见，（2）部件被遮挡，（3）部件被自身遮挡，（4）被截断。2D/3D模型示例如下图：

Deep MANTA 网络

coarse-to-fine forward.

给定输入图像，网络使用RPN返回K个proposals B1，提取特征并使用ROI池化到固定尺寸，提取的区域进行前向传播并使用offset变换矫正，得到第二个目标proposal集合B2，重复该过程一次得到最终的bbox B3。三层矫正过程如下图所示：

Many-task prediction.

Deep MANTA输出最终的bbox集，对于每个box，MANTA网络同时返回所有的2D 车辆part坐标，part visibility及3D模板相似度T。模板相似度rm=(rx,ry,rz)对应将3D模板与真实模板拟合的三个尺度因子。

Deep MANTA Inference

第一步，Deep MANTA的输出与3D数据库中模板求相似度

第二步，使用3D形状S3dc进行2D/3D匹配，3D形状与2D形状匹配。

第三步，输出3D bbox坐标和3D part坐标。

Deep MANTA 训练

三层矫正，最小化五个损失函数：Lrpn，Ldet，Lparts,Lvis,Ltemp

全局损失函数：L=L1+L2+L3

其中，

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航