您的位置:首页 > 其它

图像分割“Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade”

2017-05-22 11:40 921 查看
提出层级联(LC)提升语义分割的准确率和速度,将深度模型改为几个子模型的级联,初级子模型处理容易或置信度较高的区域,之后将较难的区域前向传播到下一级自模型处理。卷积仅在特定区域上计算,降低了计算量。

优点:

1. 浅层处理较易区域,深层处理较难区域,自适应学习提升性能;

2. LC的训练和测试时间都有提升;

3. 端到端的训练结构,所有子模型联合训练。

与V&J级联思路不同,层级联拒绝置信度较高的样本,低置信度的将本前向传播,层级联策略如下图所示:



上图中,所有像素分为三个级别,较易ES,中等MS和较难HS。较易的像素对应第一级正确分类置信度高于95%的子集,较难的样本对应误分类置信度高于95%的子集。中等样本置信度低于95%。

策略:第一步将ES和HS识别出,将MS传播到第二级。上

原因:

1. 上图显示70%的HS像素在物体的边界处,易混淆。对HS进行训练,易造成过拟合。

2. 30%像素属于ES,去除ES和HS,减少了约40%的像素,降低计算量。

层级联

参考网络结构

参考网络Inception-Resnet-v2,即IRNet,下图是IRNet的结构,包括6个组成部分,即,Stem, IRNet-A/B/C,Reduction-A/B。



将分类网络用于分割,先做两个更改,一是去除池化层及降低Reduction-A\B卷积步长提高分辨率,二是固定BN层的参数提高其稳定性。

IRNet转为IRNet-LC

通过将不同的组件划分到不同的级联阶段实现,级联3层结构,Reduction-A之前的组件划分到第一阶段,Reduction-A与-B之间的第二阶段,其余第三阶段。如下图所示:



此外在每阶段两个卷积层和一个softmax层。这样每个阶段都有自己的损失函数。上图中,第一阶段识别出大部分的背景像素,将其余区域前传,这些区域此时的标记未知, 第二阶段仅处理传过来的区域,第三阶段重复这个过程。图3b显示了区域卷积与全图卷积的区别,图3c是在残差模型上进行区域卷积,特征通过等值映射和卷积得到。



第一阶段,给定3*515*512的图像I,输出21*64*64的分割标记图,每个21*1的向量表示对应像素属于21类物体的概率。若某像素最大得分超过阈值ρ,接受对该像素的预测,不再将其传播到下一层。ρ通常大于0.95。

第二阶段决定哪些像素输送到第三阶段,网络仅引入了一个超参数ρ,ρ决定了每步像素被拒绝的程度。ρ=1.0时,没有像素被拒绝,当ρ变小时,更多的像素在第一阶段就被决定归属了,没有提取到深层信息,影响性能。当ρ=0.985时,相对于IRNet,性能提升1.7%,速度达到15fps。

网络训练

IRNet使用ImageNet预训练,LC增加了两卷积层的参数使用正态分布随机初始化,训练有两步:初始训练,级联训练。初始训练中最小化像素级softmax损失函数,级联训练对上一步置信度低的像素微调。

实验结果

CitySpaces每层分割可视化结果:



VOC2012上与其他方法性能和时间对比:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐