您的位置:首页 > 其它

车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”

2017-08-01 11:41 513 查看
Deep Many Task,同时进行车辆检测,部件定位,可视化特征描述及3D维度估计。基于coarse-to-fine的目标proposal结构提升检测性能。Deep MANTA可以定位不可见的车辆部位。

应用

3D车辆定位和方向估计可用于估计车辆速度和方向。

论文第一个贡献是使用车辆特征点编码3D车辆信息,车辆是刚性的,可通过回归的方法预测隐藏的部分。结合3D数据集,将3D点投影到2D图像中的车辆上,选取最佳的3D模型。

第二个贡献是Deep Many-Task CNN,网络输出2Dbbox,part visibility及3D车辆模板。

第三个贡献是使用3D模型(几何信息,可视性)生成真实图像的标记。

Deep MANTA

首先,输入图像经过Deep MANTA输出2Dbbox,车辆几何特征(车辆部件坐标、3D模板相似度)及part可视性属性。然后,inference阶段使用Deep MANTA的输出和3D车辆数据集复原3D方向和位置。

3D形状及模板数据集

3D数据集包含几种类型车辆的3D模型(Sedan,SUV),对每个3D模型m,标记N个顶点(3D块)。这些块对应相应的车辆区域。使用坐标点集S3dm=(p1,p2,...,pN)表示3D形状,其中pk=xk,yk,zk表示kth部分的3D坐标。3D模型的3D模板定义为t3Dm=(wm,hm,lm)。3D数据库示意图如下所示:



2D/3D车辆模型

模型如下表示:(B,B3d,S,S3d,V)

其中,B是2D的车辆bbox,B3d=(cx,cy,cz,θ,t)是3D bbox。S是2D部件坐标,S3d是车辆3D 部件坐标。V={v_k}是part visibility向量,可视性分四类:(1)部件可见,(2)部件被遮挡,(3)部件被自身遮挡,(4)被截断。2D/3D模型示例如下图:



Deep MANTA 网络

coarse-to-fine forward.

给定输入图像,网络使用RPN返回K个proposals B1,提取特征并使用ROI池化到固定尺寸,提取的区域进行前向传播并使用offset变换矫正,得到第二个目标proposal集合B2,重复该过程一次得到最终的bbox B3。三层矫正过程如下图所示:



Many-task prediction.

Deep MANTA输出最终的bbox集,对于每个box,MANTA网络同时返回所有的2D 车辆part坐标,part visibility及3D模板相似度T。模板相似度rm=(rx,ry,rz)对应将3D模板与真实模板拟合的三个尺度因子。

Deep MANTA Inference

第一步,Deep MANTA的输出与3D数据库中模板求相似度

第二步,使用3D形状S3dc进行2D/3D匹配,3D形状与2D形状匹配。

第三步,输出3D bbox坐标和3D part坐标。

Deep MANTA 训练

三层矫正,最小化五个损失函数:Lrpn,Ldet,Lparts,Lvis,Ltemp

全局损失函数:L=L1+L2+L3

其中,

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐