您的位置:首页 > Web前端

论文阅读笔记之《Learning Deep Correspondence through Prior and Posterior Feature Constancy》

2017-12-28 10:28 791 查看
本篇博客记录一下最近看的一篇KITTI2015上排名第二的网络结构iResNet-i2e2

一 论文贡献

二 基础知识
a 贝叶斯推导

b 概念解释

三 iResNet-i2e2的网络结构
1 组成

2 网络架构
a 茎块多尺度特征提取

b 初始化视差估计子网络

c 视差优化子网络

d 迭代优化

3 网络体系结构

一 、论文贡献

论文中和前期网络最大的不同点在于:已存在的方法是使用多网络任务去完成立体匹配中的不同的步骤

在该论文中,总结了三个贡献:

将立体匹配的四个步骤都集成到了一个网络中,这样有效的提高了精确度和其效率;

将视差优化构想为使用特征稳定性来进行贝叶斯推理的过程;

在KITTI的基准上实现了最先进技术的表现。

如果有看过CRL网络结构的博友会发现,iResNet-i2e2网络中视差优化部分是生成一个残差,将该残差与初始化视差相加得到最终的视差图,其实这个大的思路和CRL是相近的,CRL利用DispFullNet产生初始化视差,然后通过DispResNet产生残差,两者相加的结果作为最后的视差图。但是很大的不同在于,CRL是两个网络,而iResNet-i2e2中仅有一个单独的网络;而且两者对残差的计算方式不同。

二 、基础知识

a. 贝叶斯推导

贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有



上式即为贝叶斯公式(Bayes formula),Bi 常被视为导致试验结果A发生的”原因“,P(Bi)(i=1,2,…)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2…)则反映当试验产生了结果A之后,再对各种原因概率的新认识,称为后验概率。

b. 概念解释

feature constancy 特征不变性
在特征空间中两个像素的对应关系

prior disparity 先验视差
将初始化的视差作为贝叶斯推导中的先验

the posterior feature constancy 后验特征不变性
特征空间中重建误差被看作是基于初始视差的后验特征不变性

the prior feature constancy 先验特征不变性
从左、右图中提取的特征之间的相关性被视为先验特征不变

三 、 iResNet-i2e2的网络结构

1、 组成

主要分为三个部分 

计算多尺度的共享特征;

执行匹配代价计算、代价聚合、和视差计算,利用共享特征估计初始化视差;

将初始视差、先验特征和后验特征的稳定性引入一个子网络,通过贝叶斯推到过程细化初始视差。

2、 网络架构

下图是网络框架



a. 茎块——多尺度特征提取

这个块的输出结果可以划分成三个类型:

a.第二个卷积层conv2a/conv2b的输出——捕捉两幅图像之间总体的、粗略的对应关系;被第一个子网络用于视差估计

b.第一个卷积层conv1a/conv1b的输出——捕捉两幅图像之间短程的、细密的对应关系;该特征充当了第二个子网络所使用的先验特征不变性

c.多尺度融合特征up_conv1a/up_conv1b——用于计算第二个子网络的后验特征不变性

b. 初始化视差估计子网络

子网络的输入是上一部分中的第二个卷积层conv2a/conv2b的输出;输出是视差图;中间过程是通过一个编码-解码结构完成的(这一点和FlowNet、DispNet相似)。

在计算匹配代价的时候,其精度和效率之间存在一个权衡关系:如果利用高层特征来计算匹配代价,会丢失很多细节,一些很相似的对应关系不能被区分;相反,如果利用低层特征来计算,因为特征图很大,所以计算成本很高,不过感受野很小,以至于捕获更鲁棒的特征。

-skip connection:利用ResNet中的短路思想,其作用是结合低层次特征(通常包含了位置信息)和高层次特征(包含语义信息),因为经过一些卷积层后,feature map里面都是一些高层的特征,丢失了一些细节,加入skip connection可以使得最终的结果加入一些细节(低层特征)。最后会发现提取的特征中包含了更多的信息,使得模型更加鲁棒。

c. 视差优化子网络

前面的网络的输出是初始化的视差图,但是这个视差图并布不能作为最终的输出,原因在于初始化的视差图还面临一些深度不连续以及异常值的挑战。所以需要再进一步的进行视差估计。

前面提到过在本论文中,将视差优化的任务当作是贝叶斯推理过程。公式为



将视差估计子网络产生的初始化视差放发票视差优化子网络中,会估计这个初始化视差的残差。

最终的视差图是=初始化视差+残差

d. 迭代优化

这个过程重复执行,直到相邻两次迭代之间的改进很小。值得注意的是:随着迭代次数的增加,改进减小。

3、 网络体系结构

下图是网络体系构







解释一下咱们开始的时候说这个网络结构是iResNet-i1e2,其中i2表示的是迭代的去优化视差两次,e2指的是将输入图像放大两倍。

本博客只是对论文的初步理解,后期还会再跟进。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  双目视觉
相关文章推荐