[论文阅读笔记] DISN: Deep Implicit Surface Network forHigh-quality Single-view 3D Reconstruction
摘要盲点补充
全局特征和局部特征:局部特征则是从图像局部区域中抽取的特征,包括边缘、角点、线、曲线和特别属性的区域等。常见的局部特征包括角点类和区域类两大类描述方式。
SDF(signed distance fields):有向距离场
使带符号距离字段真正有用的是,如果您需要调整图像的大小,会发生什么情况。距离值由3D硬件以与传统位图中强度值相同的方式插值,但是因为边缘来自测试,所以它保持清晰。这意味着您可以多次放大位图,而不会遭受传统位图由于过滤伪像而呈现的模糊或厚重的边缘
iso-surface(等值面):所谓等值面是指空间中的一个曲面,在该曲面上函数F(x, y, z)的值等于某一给定值Ft,即等值面是由所有点S = {(x, y, z):F(x, y, z) = Ft}组成的一个曲面。
Introduction
3D形状表示:
voxel 、point cloud——方便神经网络编码,限制分辨率
mesh——显示表面表示,拓扑固定
point和mesh表示方法只能使用CD和EMD计算损失,这两种损失只能计算近似距离
本文采用了一种隐式三维表面表示法——有向距离场(SDF),保留局部特征,提出一个DISN网络基于单视图预测SDFs
其他隐式表面表示法:生成二进制占用、无法恢复细节(只提取了全局特征)
局部信息提取模块(能够学习二维投影像素和三维空间之间的关系):我们估计输入图像的视点参数。我们利用这些信息将每个查询点投影到输入图像上,以识别相应的局部补丁。我们从这些拼接中提取局部特征,并结合全局图像特征来预测三维点的SDF值
Method
目的:给定对象的图像,我们的目标是重建一个3D形状,该形状可以捕获对象的整体结构和细粒度的细节。
过程:1.相机姿态估计
2.将每个三维查询点投影到图像平面上,收集多尺度特征
3.DISN使用多尺度局部图像特征和全局图像特征将给定的空间点解码为SDF值
DISN
DISN包括两部分:一是相机姿态估计;二是SDF预测
相机姿态估计:将世界坐标中的物体映射到图像平面的相机参数
输入:image和p
使用image预估相机参数,通过相机参数将p映射到图像,提取local feature,得到全局特征和局部特征后,输入到DISN
相机姿态估计
数据集:ShapeNet Core
固定一组相机内参数,选用6D旋转表示姿态估计,回归估计。
损失函数:首先使用预测的相机姿态将给定的点云从世界空间转换到相机坐标空间。我们通过变换到相机空间的点云和地面真实点云之间的均方误差来计算损失
PCW表示世界坐标系下的点云,PG表示相机坐标系下的点云groundtruth,R为6D旋转,t是平移,计算L2损失函数
SDF预测
我们的解决方案是使用多层感知器将给定点位置映射到高维特征空间。然后,该高维特征分别与全局和局部图像特征连接,并用于回归SDF值。
局部特征提取
通过估计的相机姿态的参数,我们将3D的点p投影到2D图像上得到点q,在每一个特征图上寻找与点q匹配的点将它们连接起来以获得局部特征。
由于后面图层中的特征图的尺寸小于原始图像的尺寸,因此我们使用双线性插值将其调整为原始尺寸,并提取特征图中位置q的特征。
SDF预测的输入:局部特征和全局特征,点特征
将全局特征和局部特征依次与点特征匹配
预测SDF的损失函数(L1范数):
SDFI表示groundtruth
f表示预测函数
I为输入图片
m1和m2是不同权重
表面重建
为了生成网格表面,我们首先定义一个密集的3D网格并预测每个网格点的SDF值。一旦为密集网格中的每个点计算了SDF值,就可以使用Marching Cubes获得与等值面S0对应的3D网格。
实验细节
新建一个2D数据库,对于每个网格模型,新数据集提供36个变化较小的视图和36个变化较大的视图,允许物体从空间的原点移动,因此数据集包含5个自由度。
使用VGG-16作为图像的编码器
改进
只能处理背景清晰的对象,因为它是用渲染图像训练的。
- 点赞
- 收藏
- 分享
- 文章举报
- 论文阅读:Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis
- 2017-06-Deep Network Flow for Multi-Object Tracking-论文阅读笔记
- Deep Residual Learning for Image Recognition--ResNet论文阅读笔记
- 论文笔记-An Analysis of Deep Neural Network Models for Practical Applications
- 《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network》论文学习笔记
- 论文阅读:Knowledge Based Segmentation for Fast 3D Dental Reconstruction from CBCT
- 【论文笔记】Recover Canonical-View Faces in the Wild with Deep Neural Network
- cuDNN: efficient Primitives for Deep Learning 论文阅读笔记
- 【论文阅读笔记】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
- 3D【2】非刚性配准:Optimal Step Nonrigid ICP Algorithms for Surface Registration 阅读笔记
- [论文解读]Multi-View 3D Object Detection Network for Autonomous Driving
- 『 论文阅读』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems
- Deep Convolutional Network Cascade for Facial Point Detection阅读笔记
- 论文笔记-Temporal segment network:towards good practices for deep action recognition
- 多尺度R-CNN论文笔记(5): A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
- 论文笔记: Dual Deep Network for Visual Tracking
- [论文阅读笔记] DeepNeuron: An Open Deep Learning Toolbox for Neuron Tracing
- 三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection
- 论文笔记之:Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation
- 【转载】论文笔记系列-Tree-CNN: A Deep Convolutional Neural Network for Lifelong Learning