您的位置：首页 > 其它

AE、VAE、Beta-VAE学习记录

2021-04-30 19:58 155 查看

在现实的世界中，我们无时无刻不接受着大量的数据，这些数据可能是文本或者是声音等等。但是数据本身真正蕴含的信息可能仅仅用个低维向量表示就够用了，而不是像数据本身看起来那样复杂。机器学习中就有很多将数据压缩到低维空间中的技术。其中有一个最近论文中比较火的，那就是变分自编码。

在开启变分自编码的探索之前，先介绍一些常见的自编码机。这需要一些神经网络的基础知识，比如说反向传播等等的。自编码机实际要做的事情是喂给一些输入数据，比如说一个图像或一个向量，或者是其他的高维度的数据。通过神经网络的加持，数据能够压缩成一个低维度的表示。自编码机分有两个部分，第一部分叫做编码机，他通常是个多层神经网络，全连接的神经网络和卷积神经网络都可以。编码机接受输入数据，然后把输入数据压缩为一个向量，其维度远低于输入数据，我们管压缩出来的这个向量叫做“瓶颈”（bottleneck）。然后我们再给另外一个全连接的，或者是卷积神经网络（解码机），喂以“瓶颈”，重建输入数据。我们再来看看自编码机的loss函数，我们首先取出解码机所重建的数据，然后将重建的数据与原始的输入数据做loss。

通过逐个像素的差异对比，我们就能够建立一个loss函数，来指导神经网络进行图像压缩。很显然，全连接版本的自编码机很容易实现，我们也可以使用差不多的方法来搞一个卷积的，用来处理图像或者是声音的数据。

究其本真，当你训练一个深度卷积网络，来对一堆图像数据进行编码和解码的时候，你就创造了一种新的压缩算法（Entropy-based，hardcoded compression Data specific，learned compression！）。Google也正在考虑使用此类的神经网络，来减少手机的网络带宽占用。当你在下载一张图片的时候，在资源端，图像先被编码，然后将编码通过无线网络传输过来。手机接收以后，我们再使用一个解码器，输入编码将图像重建起来。我们使用mnist数据集来做自编码机的时候，你能很直观的感受到，这些低维的东西，到底表达了图像的什么。

看这些图片，最左边的是一些准备输入自编码机的一些原始图像，右边的这两幅都是自编码机重建出来的图像。你可以很显然的看出，“瓶颈”的维度的不同对重建会有什么不同。仅仅使用两维隐含表示，其实就是两维的“瓶颈”，我们能将图像重建出来，但是有点模糊。模糊的主要原因是，你强制将图像压缩到两维的时候，丢失了很多信息。重建的时候，也就丢失掉了很多的细节，这也就是图片模糊的原因。如果扩大“瓶颈”的维度，你将会重建出更清晰更锐利的图像，但是你将耗费更多的维度。也有很多人使用这项技术来做图像分割（Image Segmentation），首先将一副图像输入给卷积编码器，拿到瓶颈处的数据，然后重建一副图像，但这一次我们并不去重建原始图像，取而代之的是重建一副分割了的图像。无人驾驶汽车就是用这样的神经网络来将摄取的图像，分割为我们需要进行检测的不同的部分。

变分自编码机的基础出发点是我们将原始的输入映射到一个分布，而不是像原来的那样映射为一个定长的向量。所以说在变分自编码器中，唯一不同的就是我们将瓶颈处的一个向量替换成了两个的向量，其中一个表示分布的平均值，另外一个表示分布的标准差（两个向量共同代表了一个分布）。当你需要喂给解码部分输入的时候，你需要做的事情就是在这两个向量中采样出一个数据来，然后将这个采样出来的数据喂给解码器。为了训练一个变分自编码器，loss函数也必须包含两个部分，其中一个部分是重建loss，这一部分跟其他的自编码机也一样，非要说不一样的话，也仅仅是这个期望符号，因为我们是采样出来的嘛。Loss函数的第二部分，我们叫做KL散度。

我不打算把所有的细节都讲清楚，因为这里所涉及的数学部分确实太多。但其实你仅需要搞清的，就是，它其实就是为了控制瓶颈部分的分布，尽量靠近一个标准正态分布。也就是说，你需要尽量控制瓶颈部分的分布是一个均值为0，标准差为1的分布。
在训练它之前还有一点要注意，我们还得再使用一个技巧。

来看一下这个网络的计算图，这里有一个问题。在瓶颈部分，我们使用了一个采样操作，我们从两个向量代表的分布中采样出来了一个样本，然后将它喂给解码器，这样在梯度反传的时候就尴尬了，采样操作怎么反传梯度？为了在训练的时候，我们仍然能使用梯度下降，我们使用了一个参数再现的技巧（Reparameterization Trick）,这个过程是这样的。你可以将这一个向量，视为一个值μ，也就是那个均值向量加上σ，也就是那个标准差向量。然后再σ单独乘以一个随机部分ε，这个ε要服从标准正态分布，也就是ε的均值为0标准差为1。我们实际上是从标准正态分布中生成了一个ε，然后通过公式采样出来了一个瓶颈值。

再反过来看，这里的μ和σ 才是我们想要训练的值，这样我们也就能够进行梯度反传了。至于那个ε呢，这个节点，时刻发生一个固定分布的随机数，我们不需要改变它，我们也就不关心ε了，这也就无所谓了。

这就是整个采样的过程，也就是我们参数再现技巧，我们避免了完全随机采样的方式，也是出于梯度反向传播的原因。我们将采样过程分成两个可以使用反向传播的部分：一个可训练的参数部分，另外一个是随机的部分，而且不用训练。是不是很巧妙。然后，在这里他计算了KL散度，然后整合出loss函数，然后进行反传。

视频链接：
https://www.bilibili.com/video/BV1cs411T7aH?t=346

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航