您的位置：首页 > 其它

Deeplab v3 | Rethinking Atrous Convolution for Semantic Image Segmentation

2017-06-21 13:04 489 查看

鉴于之前写过deeplab v1与2，继续读一读新出的v3

整体来说，这篇文章还是在探究两个大家一直在做的问题：全局信息于多尺度信息。另外作者还强调了BN的使用。

本文在原有的框架下提出了两种框架：

1. 加长版

2. 增强版ASPP（deeplab v3）

两者都使用了Multi-grid的多 hole算法rates。

1. Multigrid

图森的论文也提过类似的方法,

P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell. Understanding convolution for semantic segmentation.
arXiv:1702.08502, 2017.

下面简单的说一蛤，

原本一个block内的卷积层，e.g. 三层，都是一个rate，这里将其分别变为不同的rates，比如将2×(1,1,1)变为2×(1,2,1)。

2. 加长版

这里在原有基础上增加了几个block，增加的效果：

加入Multi-Grid的效果

3. 增强版ASPP

这里和原来的区别在于增加了一个 gloable average pooling，然后所有的concat 并学一个conv

效果如下：

4. 其他

BN层是先使用output stride=16训练后锁定的

coco预训练，Multiscale inputs，filp都起到了不错的效果，训练时采用了增加困难样本的策略

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航