您的位置:首页 > 其它

Analyzing and Improving the Image Quality of StyleGAN论文解读笔记

2020-01-13 04:59 1091 查看

文章目录

导读

今天小编分享最近英伟达在 GAN 领域最大的研究突破----StyleGAN。这一新的研究提升了生成图像的质量,实现了最新的 SOTA。
Analyzing and Improving the Image Quality of StyleGAN [PDF]
[code]

摘要

基于样式的GAN架构(StyleGAN)在数据驱动的无条件生成图像建模中产生了最先进的结果。 我们公开并分析了其一些特征工件,并提出了模型体系结构和训练方法方面的更改以解决这些问题。 特别是,我们重新设计了生成器归一化,重新审视了渐进式增长,并对生成器进行了正则化,以期在从潜在矢量到图像的映射中激发良好的条件。 除了改善图像质量外,该光程长度调节器还带来了其他好处,即发电机变得非常容易反转。 这使得可靠地检测图像是否由特定网络生成成为可能。 我们进一步可视化发电机如何充分利用其输出分辨率,并确定容量问题,从而激励我们训练更大的模型以提高质量。 总体而言,我们改进的模型重新定义了无条件图像建模的最新水平,既有现有的分布质量指标,也有感知的图像质量。

引言

使用生成方法(尤其是生成对抗网络)得到的图像的分辨率和质量都在快速提升。在高分辨率合成任务上的当前最佳方法是 StyleGAN,研究表明其能在多种数据集上可靠地发挥作用。这项研究关注的问题是修复 StyleGAN 的特有伪影以及进一步提升其结果的质量。

StyleGAN 的显著特征是其具有非常规的生成器架构。这种架构不会仅在网络的开始处向其馈送输入隐代码 z ∈ Z,而是其映射网络 f 首先会将其变换成一个中间隐代码 w ∈ W。然后,仿射变换通过自适应实例归一化(AdaIN)得到能控制合成网络 g 的层的风格。另外,其还通过向合成网络提供额外的随机噪声图而提升了随机变化的性能。研究表明,这种设计能让中间的隐空间 W 比输入的隐空间 Z 的纠缠少得多。这篇论文的所有分析都集中在 W 上,因为从合成网络的视角看,它是相关的隐空间。

很多观察者注意到 StyleGAN 生成的图像会有很有特点的伪影。这篇论文给出了产生这些伪影的两个原因,并描述了可以如何通过修改架构和训练方法来消除这些伪影。

第一,研究者研究了常见的斑点状伪影的起源,发现生成器创建它们的原因是为了规避其架构中的设计缺陷。研究者于是重新设计了生成器中所使用的归一化方案,这能够移除伪影。

第二,作者分析了与渐进式增长(progressive growing)相关的伪影,这已经在稳定化高分辨率 GAN 训练中取得了高度成功。研究者提出了另一种无需在训练中修改网络拓扑结构就能实现同样目标的设计——首先以低分辨率图像为重心开始训练,然后将重心逐渐转移到越来越高的分辨率。这种新设计还能推理所生成图像的有效分辨率,事实证明这个有效分辨率低于预期,说明相关研究还有进一步的提升空间。

对于生成方法产生的图像的质量如何进行定量分析?这还依然是一个颇具挑战性的难题。Frechet inception 距离(FID)衡量的是一个 InceptionV3 分类器的高维特征空间中两个分布的密度差异。精确度和召回率(P&R)则提供了额外的可见性,它们的具体方法分别是显式地量化所生成图像与训练数据类似的百分比以及可以被生成的训练数据的百分比。作者使用这些指标对改进情况进行了量化。

FID 和 P&R 都基于近期出现的关注纹理而非形状的分类器网络,由此造成的后果是这些指标无法准确体现图像质量的所有方面。研究者观察到感知路径长度(PPL)指标与形状的一致性和稳定性相关,而该指标最早是为评估隐空间插值的质量而引入的一种方法。基于此,研究者对合成网络进行了正则化处理,以支持平滑的映射和实现明显的质量提升。为了抵消这种方法的计算成本,研究者还提出降低所有正则化的执行频率。实验表明,这种做法其实对效果没什么影响。

最后,作者发现相比于使用原始的 StyleGAN,使用新的路径长度正则化的生成器时,图像到隐含空间 W 的投射的效果要好得多。这在实际应用中是很重要的,因为这让我们可以可靠地辨别给定图像是否是用特定的生成器生成的。

  • 移除归一化伪影

首先来看看 StyleGAN 生成的大多数图像都有类似水滴的斑状伪影。如图 1 所示,即使当水滴在最终图像中并不明显时,它也会出现在生成器的中间特征图中。这种异常在大约 64×64 分辨率时开始出现,并会出现在所有特征图中,还会在分辨率增高时逐渐变强。这种总是存在的伪影很令人困惑,因为判别器本应该有检测它的能力的。

图2c中的样式块由调制,卷积和规范化组成。

  • 用解调代替规范化可消除图像和激活中的特征伪像
  • 使用基线StyleGAN感知路径长度和图像质量之间的联系
  • a)PPL低(≤百分之十)的随机例子。 (b)高PPL(≥90%)的示例。 PPL得分与图像语义一致性之间存在明显的相关性

图像质量和生成器平滑度

  • 懒惰式正则化(Lazy regularization)

表 1 第 C 行说明,即使每 16 minibatch 仅执行一次 R1 正则化,对结果也没什么影响。研究者在新的正则化器中就采用了这一策略。

  • 路径长度正则化

  • 渐进式增长
  • 可替代使用的网络架构

  • 分辨率使用
  • 图像到隐空间的投射

总结

我们已在StyleGAN中识别并修复了多个图像质量问题,从而在多个数据集中进一步改善了图像质量,如所附视频所示,在某些情况下,这些改进在运动方面更为清晰可见。 附录A包含使用我们的方法可获得的结果的更多示例。 尽管质量有所提高,但与原始StyleGAN相比,使用基于投影的方法检测由我们的方法生成的图像更容易。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
Mr.Ma-master 发布了55 篇原创文章 · 获赞 23 · 访问量 9950 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐