车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”
2017-08-01 11:41
513 查看
Deep Many Task,同时进行车辆检测,部件定位,可视化特征描述及3D维度估计。基于coarse-to-fine的目标proposal结构提升检测性能。Deep MANTA可以定位不可见的车辆部位。
应用
3D车辆定位和方向估计可用于估计车辆速度和方向。
论文第一个贡献是使用车辆特征点编码3D车辆信息,车辆是刚性的,可通过回归的方法预测隐藏的部分。结合3D数据集,将3D点投影到2D图像中的车辆上,选取最佳的3D模型。
第二个贡献是Deep Many-Task CNN,网络输出2Dbbox,part visibility及3D车辆模板。
第三个贡献是使用3D模型(几何信息,可视性)生成真实图像的标记。
Deep MANTA
首先,输入图像经过Deep MANTA输出2Dbbox,车辆几何特征(车辆部件坐标、3D模板相似度)及part可视性属性。然后,inference阶段使用Deep MANTA的输出和3D车辆数据集复原3D方向和位置。
3D形状及模板数据集
3D数据集包含几种类型车辆的3D模型(Sedan,SUV),对每个3D模型m,标记N个顶点(3D块)。这些块对应相应的车辆区域。使用坐标点集S3dm=(p1,p2,...,pN)表示3D形状,其中pk=xk,yk,zk表示kth部分的3D坐标。3D模型的3D模板定义为t3Dm=(wm,hm,lm)。3D数据库示意图如下所示:
2D/3D车辆模型
模型如下表示:(B,B3d,S,S3d,V)
其中,B是2D的车辆bbox,B3d=(cx,cy,cz,θ,t)是3D bbox。S是2D部件坐标,S3d是车辆3D 部件坐标。V={v_k}是part visibility向量,可视性分四类:(1)部件可见,(2)部件被遮挡,(3)部件被自身遮挡,(4)被截断。2D/3D模型示例如下图:
Deep MANTA 网络
coarse-to-fine forward.
给定输入图像,网络使用RPN返回K个proposals B1,提取特征并使用ROI池化到固定尺寸,提取的区域进行前向传播并使用offset变换矫正,得到第二个目标proposal集合B2,重复该过程一次得到最终的bbox B3。三层矫正过程如下图所示:
Many-task prediction.
Deep MANTA输出最终的bbox集,对于每个box,MANTA网络同时返回所有的2D 车辆part坐标,part visibility及3D模板相似度T。模板相似度rm=(rx,ry,rz)对应将3D模板与真实模板拟合的三个尺度因子。
Deep MANTA Inference
第一步,Deep MANTA的输出与3D数据库中模板求相似度
第二步,使用3D形状S3dc进行2D/3D匹配,3D形状与2D形状匹配。
第三步,输出3D bbox坐标和3D part坐标。
Deep MANTA 训练
三层矫正,最小化五个损失函数:Lrpn,Ldet,Lparts,Lvis,Ltemp
全局损失函数:L=L1+L2+L3
其中,
应用
3D车辆定位和方向估计可用于估计车辆速度和方向。
论文第一个贡献是使用车辆特征点编码3D车辆信息,车辆是刚性的,可通过回归的方法预测隐藏的部分。结合3D数据集,将3D点投影到2D图像中的车辆上,选取最佳的3D模型。
第二个贡献是Deep Many-Task CNN,网络输出2Dbbox,part visibility及3D车辆模板。
第三个贡献是使用3D模型(几何信息,可视性)生成真实图像的标记。
Deep MANTA
首先,输入图像经过Deep MANTA输出2Dbbox,车辆几何特征(车辆部件坐标、3D模板相似度)及part可视性属性。然后,inference阶段使用Deep MANTA的输出和3D车辆数据集复原3D方向和位置。
3D形状及模板数据集
3D数据集包含几种类型车辆的3D模型(Sedan,SUV),对每个3D模型m,标记N个顶点(3D块)。这些块对应相应的车辆区域。使用坐标点集S3dm=(p1,p2,...,pN)表示3D形状,其中pk=xk,yk,zk表示kth部分的3D坐标。3D模型的3D模板定义为t3Dm=(wm,hm,lm)。3D数据库示意图如下所示:
2D/3D车辆模型
模型如下表示:(B,B3d,S,S3d,V)
其中,B是2D的车辆bbox,B3d=(cx,cy,cz,θ,t)是3D bbox。S是2D部件坐标,S3d是车辆3D 部件坐标。V={v_k}是part visibility向量,可视性分四类:(1)部件可见,(2)部件被遮挡,(3)部件被自身遮挡,(4)被截断。2D/3D模型示例如下图:
Deep MANTA 网络
coarse-to-fine forward.
给定输入图像,网络使用RPN返回K个proposals B1,提取特征并使用ROI池化到固定尺寸,提取的区域进行前向传播并使用offset变换矫正,得到第二个目标proposal集合B2,重复该过程一次得到最终的bbox B3。三层矫正过程如下图所示:
Many-task prediction.
Deep MANTA输出最终的bbox集,对于每个box,MANTA网络同时返回所有的2D 车辆part坐标,part visibility及3D模板相似度T。模板相似度rm=(rx,ry,rz)对应将3D模板与真实模板拟合的三个尺度因子。
Deep MANTA Inference
第一步,Deep MANTA的输出与3D数据库中模板求相似度
第二步,使用3D形状S3dc进行2D/3D匹配,3D形状与2D形状匹配。
第三步,输出3D bbox坐标和3D part坐标。
Deep MANTA 训练
三层矫正,最小化五个损失函数:Lrpn,Ldet,Lparts,Lvis,Ltemp
全局损失函数:L=L1+L2+L3
其中,
相关文章推荐
- 论文阅读:Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis
- 车辆2D/3D--Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis
- 【视频变化检测】2017CVPR Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection from
- 姿态检测整理--06-Associative Embedding: End-to-End Learning for Joint Detection and Grouping
- Some 3D Graphics (rgl) for Classification with Splines and Logistic Regression (from The Elements of Statistical Learning)(转)
- CVPR 2017—Deep Joint Rain Detection and Removal from a Single Image
- 车牌检测识别--Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks
- 论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data
- 论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application
- 《applying deep learning to answer selection:a study and an open task》QA问答模型笔记
- A Multi-task Deep Network for Person Re-identification
- A novel Bayesian network inference algorithm for integrative analysis of deep sequencing data
- 禁止requests请求https的提示InsecurePlatformWarning: A true SSLContext object is not available. This prevents urllib3 from configuring SSL appropriately and may cause certain SSL connections to fail. For more
- 人脸检测对齐--Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
- Strategies for migrating from Alpha and VAX systems to HP Integrity server systems on OpenVMS
- End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human
- 论文阅读:《Associative Embedding:End-to-End Learning for Joint Detection and Grouping》
- lie groups for 2d and 3d transformations