语义分割论文:Group-wise Deep Object Co-Segmentation with Co-AttentionRecurrent Neural Network(ICCV2019)
协同分割论文阅读:Group-wise Deep Object Co-Segmentation with Co-AttentionRecurrent Neural Network(ICCV2019)
目录
1.贡献点
提出一种利用协同注意力和循环网络结构实现协同分割的方法。
(1)引入递归网络结构进行协同分割,实现一组(而非一对)图像的协同分割。
(2)提出协同注意力递归单元(CARU),处理图像中协同注意对象在外观和位置上的变化。
(3)提出了一个group-wise训练目标,利用协同对象相似性和图形-背景差异作为额外的监督。
2.总体框架
(1)我们的网络首先提取所有图像的语义特征;
(2)然后由两个分支处理特征。单个图像表示分支对每个图像分别进行处理,以学习其独特的属性。同时使用一个设计好的协同注意力循环单元(CARU))对所有图像利用图像间的协同注意来生成这组图片的group feature。
(3)同时,group-wise表示分支可以通过引入递归结构,逐步学习组内的所有图像,从而学习一种鲁棒的group-wis表示。
(4)将group-wise特征广播到每一张单独的图像上,并与其特征融合,使得网络能够充分利用组和单个表示之间的互补性和相互作用,从而促进最终的协同分割。
图中,SIR:the single image representation branch单一图像表示分支
CARU:the Co-Attention Recurrent Unit 协同注意递归单元
MFF:Multi-scale Features Fusion module 多尺度特征融合模块
输入任意大小的一组图片,CNN模块提取所有图片信息,之后SIR分支提取每张图像的独有特征,CARU模块递归探索协同信息,两分支经MFF模块融合用以获取最终的协同分割掩码。
3.实现细节
SIR,单一图像表示分支
使用预训练的CNN(VGG19)提取池化特征作为其语义特征 ,然后用3个conv提取特征得到 ,公式如下:
- CARU,协同注意递归单元,结构图
指group representation,总体表示:
分析其具体实现
输入Xn和上一步得到的 ( 为 ),D用于消除当前图片噪声(多张图背景相关或非公共物体),Z决定对 的更新
去噪后得到特征图:
输入 以识别 和 的差异并对 进行更新
下图为更新门 具体结构:
channel注意力模块,全局空间平均池化获取每个channel的整体响应,后接全连接层,生成通道注意力特征图
为 全局空间平均池化后得到。
spatial注意力模块,全局空间平均池化获取每个空间位置的整体响应,后接2全连接层以生成空间注意力特征图
为 全局通道平均池化后得到。
最后更新
Z 中每个值代表对应位置 被保留和 被更新的概率。
多尺度特征融合
将group-wise特征广播到每一张单独的图像上,并与其特征融合。利用骨干网中的低层特征(Pool3、Pool4)作为补充,融合多层视觉特征,为物体的协同分割提供全面表现。
4.Loss函数
交叉熵loss进行监督
考虑到共现物体间再不同图片的高相似度以及共现目标与图片中其他区域的差异度,作者提出一种group-wise训练方法,以进一步探讨训练组中整幅图像的交互关系,提高分割精度,使用triplet loss作为分组训练的loss约束。
对于单张图片,可得到三种掩码:
其中 , 是 当前检测到的协同分割objects, 和 是实际协同分割objects和非公共分割区域,之后对3种掩码图用检测器 作用
triplet loss监督,E为欧几里得距离,利用Hinge Loss (折页损失函数、铰链损失函数)思想:
也可以用softplus函数的平滑近似代替铰链函数。
最后loss为:
5.训练细节
在group-wise约束中,使用VGG中的Relu3_1,Relu4_1,Relu5_1作为特征向量计算欧几里得距离。
为避免陷入局部最优,前100代训练只用交叉熵loss,之后的训练激活triplet loss进行训练。
考虑到训练数据较少,利用COCO数据集作为训练数据。
评价指标:Precision(P)和Jaccard index(J)。
- 语义分割经典论文:Dual Attention Network for Scene Segmentation (CVPR2019)
- 语义分割--End-to-End Instance Segmentation with Recurrent Attention
- Learning Attention for Online Advertising with Recurrent Neural Network论文思路整理
- 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)
- 医学分割论文:Recurrent Residual Convolutional Neural Network based on U-Net for Medical Image Segmentation
- [论文笔记]TextBoxes A Fast Text Detector with a Single Deep Neural Network
- 目标跟踪之“Robust Visual Tracking with Deep Convolutional Neural Network based Object Proposals on PETS”
- CVPR 2019之语义分割解读(二): Adaptive Pyramid Context Network for Semantic Segmentation
- DeepLab:深度卷积网络,多孔卷积 和全连接条件随机场 的图像语义分割 Semantic Image Segmentation with Deep Convolutional Nets, Atro
- MSCNN 论文解析(A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
- 语义分割经典论文:BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation (ECCV2018)
- Discretized Continuous Speech Emotion Recognition with Multi-Task Deep Recurrent Neural Network
- MSCNN 论文解析(A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
- TextBoxes: A Fast Text Detector with a Single Deep Neural Network论文阅读
- 语义分割DeepLab v2--DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolut
- 细粒度语义分割:ICCV2019论文解析
- 深度学习论文笔记--Recover Canonical-View Faces in the Wild with Deep Neural Network
- 【论文笔记】Recover Canonical-View Faces in the Wild with Deep Neural Network
- 【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior
- 论文阅读:《Human Parsing with Contextualized Convolutional Neural Network》ICCV 2015