Visual Attribute Transfer through Deep Image Analogy论文阅读笔记
2017-11-02 15:03
429 查看
Visual Attribute Transfer through Deep Image Analogy论文阅读笔记
介绍
论文提出了一种新的两张图片直接进行视觉属性迁移的方法。该方法针对的是两张具有不同内容却有相似语义的图像,比如两张图的主体是同一种类别的物体,并利用高层抽象特征建立起了两张图的内容的语义对应关系。这种图像视觉属性迁移方法可以在结构上基本保留两张图中内容图的内容及结构,同时融入参考图的视觉属性。和之前的算法不同的是,这种方法甚至适用于输入是真实照片,输出也希望是真实照片的任务,即可以达到像素级别的迁移。
核心贡献
提出了一种深度图像类比的方法deep image analogy
该方法在不同的图像领域(如style/texture transfer, color/style swap, sketch/painting to photo,and time lapse)的视觉属性迁移(visual attribute transfer)任务中均有不错的表现,此前的多数风格迁移方法多局限于特定领域。把PatchMatch和reconstruction从图像领域扩展到了特征(feature)领域
这可以有效的指导语义级的视觉属性迁移分析
关于算法实现的个人理解:输入是两张图A和B′。
输出有两类:
映射关系:A和B′的像素位置映射关系。
图像:内容基于A同时风格上参考了B′的图A′,内容基于B′同时风格上参考了A的图B。
为了描述简单,下面只说得到A′的流程,得到B的流程是类似的。
A和B′通过VGG19提取特征后,顶层的卷积层会输出一个粗粒度的特征图F5。因为A和A′在内容上是相似的,A′的结构基本保持和A相同,所以论文中认为A和A′在经过VGG19提取特征后,顶层的卷积层输出的粗粒度的特征图F5应该是非常相似的,即F5A≈F5A′。如果认为是相同的话就可以通过A的顶层特征图F5A进行反卷积来重建A′。
在重建A′的过程中,为了融入来自B′的特征,A′的前一层的特征图F4A′不能直接使用F5A的反卷积结果。
论文中设置了一个权重参数W来控制A′与A及B′的相似度,W的初始值是手动指定的,并且在每一次计算FLA′时,都会根据层数L对W做一个修正,使得WL随着L的下降而下降,进而在高层抽象特征上更多的参考A而在像素细节上更多的参考B′。
F4A′=W4∗F4A+(1−W4)∗R4B′
这里的R4B′是R5B′反卷积的结果,R5B′是F5B′为了在结构上匹配F5A进行变形的结果。F5B′变形的依据是对F5A和F5B′在双重约束条件(ϕa→b和ϕb→a)下执行NNF搜索,根据搜索结果进行匹配。
以上就是整个算法的大致思路,具体细节(如数学公式和一些技巧)可以参考论文原文和代码实现。
需要注意的是,在photo2photo的应用场景下,在上述流程后还加入了一个refine的环节,将A和A′作为输入,以A为结构和内容样本,仅加入A′的色彩色调特征以消除结构上的变形和扭曲。
局限
对语义上不相干的图不适用
如人像图和乡村风景图之间做迁移。对于几何形状有较大差异的图不适用
包括形状、尺寸、旋转,如一个三角形的小蛋糕和一个圆形的大蛋糕。应用
Photo to Style
Style to Style
Style to Photo
Photo to Photo
相关文章推荐
- 论文阅读笔记之《Learning Deep Correspondence through Prior and Posterior Feature Constancy》
- Deep Residual Learning for Image Recognition--ResNet论文阅读笔记
- [深度学习论文笔记][Image to Sentence Generation] Deep Visual-Semantic Alignments for Generating Image Descri
- 论文阅读笔记 Picking Deep Filter Responses for Fine-grained Image Recognition
- 【论文阅读笔记】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
- 论文笔记:Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association
- Deep Visual-Semantic Alignments for Generating Image Descriptions阅读笔记
- 【论文笔记】Deep Visual-Semantic Alignments for Generating Image Description
- [深度学习论文笔记][Visualizing] Deep Inside Convolutional Networks Visualising Image Classification
- Deep Poincare Map for Robost Medical Image Segmentation 论文阅读
- 论文阅读(1)——ImageNet Classification with Deep Convolutional Neural Networks
- [深度学习论文笔记][Attention]Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention
- Deep Residual Learning for Image Recognition(ResNet)论文笔记
- Deep learning论文笔记一:ImageNet Classification with Deep Convolutional Neural Networks
- 1604. Learning deep feature representations with domain guided dropout for re-id论文阅读笔记
- 【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION
- 论文笔记: Dual Deep Network for Visual Tracking
- 【论文笔记】Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
- Deep Residual Learning for Image Recognition 阅读笔记
- 【论文阅读笔记】Deep Learning based Recommender System: A Survey and New Perspectives