您的位置：首页 > 其它

Reducing the Dimensionality of Data with Neural Networks

2015-04-26 20:18 561 查看

原文链接：http://www.ncbi.nlm.nih.gov/pubmed/16873662/

G. E. Hinton* and R. R. Salakhutdinov .
Science. 2006 Jul 28;313(5786):504-7.

Abstract

High-dimensional data can be converted to low-dimensional codes by training a multilayer neural network with a small central layer to reconstruct high-dimensional input vectors. Gradient descent can be used for fine-tuning the weights in such "autoencoder"
networks, but this works well only if the initial weights are close to a good solution. We describe an effective way of initializing the weights that allows deep autoencoder networks to learn low-dimensional codes that work much better than principal components
analysis as a tool to reduce the dimensionality of data.

Comment in

Computer science. New life for neural networks. [Science. 2006]

摘要：

高维数据通过使用一个小中心层（神经元个数小于维数）的多层神经网络（稀疏编码？）可以转换为低维数据，并可以通过此网络重建输入向量。梯度下降法可以用于在这个“自编码网络“ 调整参数，只是这种机理只在初始权值接近最优参数时有效 。我们设计出一个初始化权值的有效方法，允许sleep 自编码器网络可以学习低维表示，并且在降维的效果上好于主成分分析。

特征降维广泛应用于分类、可视化、通信和高纬数据存储过程。一个简单和广泛应用的降维方法是主成分分析PCA，他通过寻找数据集合最大偏差方向并映射数据集到此方向，获得主成分。我们描述了一个非线性PCA产生方法，使用动态的多层编码器网络转化高纬数据到低维数据，并且可以使用一个类似的自编码网络可以从低维数据恢复出元数据。（使用压缩表示，用数据预训练——获取近似最优权值，用以生成可以刻画样本隐含性质的压缩结构）

Fig. 1. Pretraining consists of learning a stack of restricted Boltzmann machines (RBMs), each having only one layer of feature detectors. The learned feature activations of one RBMare
used as the ‘‘data’’ for training the next RBM in the stack. After the pretraining, the RBMs are ‘‘unrolled’’ to create a deep autoencoder, which is then fine-tuned using backpropagation of error derivatives.

预处理包含了学习一个受限玻尔兹曼机栈（堆叠的RBM），每一个只有一层特征监测子。一层RBM学习过的数据作为下一层RBM的输入，然后使用BP算法调整参数。

初始化：随机产生两个网络的权值，他们可以同时使用最小化偏差（原数据和重建数据）方法进行训练。梯度可以由先通过解码网络再经过编码网络反传导数误差链获得。整个系统叫做”自编码器“，在图表1中阐述。

优化有多层网络的非线性自编码器是非常困难的(2–4)，使用大量的初始大参数，自编码器容易陷入局部最优；使用小的初始化参数，前几层的梯度较小，使自编码器的多层训练变得不可行。若初始化权值接近一个最优方案，梯度衰减可以正常运行，但是寻找这一个近邻最优权值需要一个特别的算法，可以一次性训练一个特征提取层。我们为二进制数据引入一个”预处理“过程，并推广它到实数数据，结果显示此过程适用于广泛的数据集。

一个二进制向量的组合（比如一个图片）可以使用 ”受限玻尔兹曼机RBM“ 建模，使用对称加权连接随机二进制特征到随机二进制特征探测器。像素点值对应于RBM的“可见”元，因为他们是可见的；特征探测子/描述子对应”隐藏“单元。一个可见和隐藏单元生成
联合分布/配置（v,h）能量：

where vi and hj are the binary states of pixel i and feature j, biand bjare
their biases, and wij is the weight between them.
这里vi 和 hj 为点i 和特征j 的二进制状态， bi和 bj为他们的基，wij 为他们的权值。
网络通过这个方程分配一个概率到每一个可能的图像，正如（8）解释的。这个训练图像的概率可以通过调整权值和基以降低图片的能量产生，并生成相似的、”虚构/构建“ 的图片（更偏向于真实数据的网络）能量。

特征探测子 j 的二进制状态 Hj 设定为1以 F(bj +Add(Vi*Wij) ) 的概率，在此F()是逻辑斯特函数（1/(1+exp(-x))）,bj 是j的偏差，Vi是i的状态，Wij是i和j之间的权值。

一旦二进制状态被选定到隐藏元，一个虚构/构建产生通过设定每一个Vi为1 以F(bj + sigma(Vi*Wij) )的概率，此时bi为i的偏差。隐藏元的权值被更新以使他们可以表示"虚构/构建" 的特征，权值更新通过公式

得出，

这里emuxilong 是学习率，<ViHi>data为分裂的次数（点i 和特征检测子j ）当特征检测子受数据驱动，<ViHi>recon为”虚拟/构建“ 的响应速率。同样的简化版本的学习规则可用于偏差。这个学习过程工作良好即使它并不事实沿着训练数据(6)的逻辑概率的梯度方向。

Fig. 2. (A) Top to bottom: Random samples of curves from the test data set; reconstructions produced by the six-dimensional deep autoencoder; reconstructions

by ‘‘logistic PCA’’ (8) using six components; reconstructions by logistic PCA and standard PCA using 18 components. The average squared error per image for the last four rows is 1.44, 7.64, 2.45, 5.90.

由顶至下：来自于测试集的随机采样曲线；由六维深度自编码器重建，使用Logistic PCA方法重建(8)使用6个主元；使用Logistic PCA方法重建使用18个主元.每个图像最后四行平均方差是 1.44, 7.64, 2.45, 5.90.

(B) Top to bottom: A random test image from each class; reconstructions by the 30-dimensional autoencoder; reconstructions by 30- dimensional logistic PCA and standard PCA. The average squared errors for the last three
rows are 3.00, 8.01, and 13.87.

自顶向下：每一类的一个随机测试图像；由30维自编码器重建；使用30维 Logistic PCA和标准PCA方法重建；最下三行的平均方差是3.00, 8.01, and 13.87.

(C) Top to bottom: Random samples from the test data set; reconstructions by the 30- dimensional autoencoder; reconstructions by 30-dimensional PCA. The average squared errors are 126 and 135.

自顶向下：每一类的一个随机测试样本；由30维自编码器重建；使用30维 PCA重建；均方差是126 and 135.

一个单层二进制特征提取层并非是为一个图像集合建立模型最好的方法。训练完一层网络之后，我们可以使它激活，当这一层被数据驱动——进而生成数据作为学习第二层特征的输入。第一层的特征探测子成为第二层RBM的可见元。这种一层接一层/逐层的学习当必要时可以重复多次/反复进行。

可以看出：增加一个额外的层一般可以促进更低的（这个模型指定给训练数据的）逻辑概率边界，此时应假定每层特征检测子的数目不减少并且他们的初始权值被正确初始化(9)。这个约束不能应用于当一个更高的层具有更少的特征探测子的情况，但即使如此逐层学习算法依然是一个有效去预训练深度编码器的权值的方法。每一层的特征捕获
底层网络单元中更稳定/强的更高阶的联系。对于更广泛的数据集，这是渐进地揭示低维数据结构的有效结构的一个有效方法。

预训练多层网络之后，模型对于产生（使用相同权值初始化的）编码和解码器网络是 ”开放“的（图表1）。全局参数调整过程随后用确定性的实值概率和使用通过对整个自编码器反传调整权值取代（stochastic activities）随机激活去优化结构。

对于连续数据，第一层RBM隐藏元保持二进制，但是可见元使用高斯噪音处理过的线性单元取代(10)。若噪音单元变量，隐藏元的随机更新规则保持相同，这个可见元i的更新规则来自于使用单元方差和均值(bj + Add(H j +W ij) )。

在我们的试验中，每一个RBM和实值激活的可见元，逻辑元变化范围为[0,1]。当训练更高层的RBM，可见元内设定为激活概率（来自于前一层的隐藏元——除了顶层RBM的随机二进制值）。顶层的隐藏元的权值为随机实数值从一个单变量高斯提取（其均值由RBM的逻辑可见元决定）。这就使得低维编码可以更好地利用连续数据并且方便与PCA 对比。预训练和参数调整可以参考（8）。

为证实我们的预训练算法可以使我们有效地调节参数，我们训练一个特定的深度编码器在一个合成的数据集上（数据集包含由两个维度的三个随机选择点生成的 ”曲线“ 图片）。对于这个数据集，这个本质/真实维度是已知的，这个映射从点的强度到六个参数是高度非线性的。点强度范围为[0,1] 并且是非高斯的，因此我们使用逻辑斯特输出单元在自编码器，学习的
参数微调阶段使用最小化交叉熵损失[- Add(Pi* log M(Pi) ) - Add( (1-Pi )* log(1-Pi ) ) ] , Pi 为点i的强度，M(Pi) 为此点的重建。

自编码器包含了一个尺寸为（28* 28）的编码器400-200-100-50-25-6和一个合成解码器。这在编码层的六个单元是线性的，且所有的其他单元是 Logistic。此网络由20000个图片训练并使用10000个测试。这个自编码器发现如何转化784个点图像到6个实数（图表2.A : 可实现完美重建），PCA给出的效果坏的多（有损压缩？）。若没有预训练过程，特定的自编码器即使延长参数微调(8)，也只能恢复出平均数据。只有一层的浅层自编码器可以不经预训练学习，但是经过预训练可以很大地降低训练时间(8)。当参数相同时，深度自编码器可以比浅层模型
产生更低的重建误差，但是这种优势会随着参数增长而递减。

下一步，我们使用一个 784-1000-500-250-30 自编码器提取所有的MINIST训练集的编码。我们使用的训练和调参Matlab代码在[ 8 ] 。然后，除编码层的30个线性单元之外，所有单元是 Logistic单元。在训练600000 个样本之后，模型在10000个样本上测试，取得了比PCA更好的重建结果（图表2.B）。一个二维自编码器可视化效果超过 PCA 两主元分析(图表3)。

我们使用一个625-2000-1000-500-30自编码器利用线性输入元为灰度图像块（Olivetti face data set）产生30维编码。自编码器明确显示出PCA(图表2C).

当训练用于文档，自编码器产生允许快速检索的编码。我们把 804 414 个每个新闻故事作为一个向量(13)，每个向量对应文档特定概率 ——2000个通用词根之中的。我们训练一个 2000-500-250-125-10 自编码器，使用一半的故事，使用多类交叉熵[- Add(Pi* log M(Pi) )] 用于参数微调。10个码为线性，其余的隐藏元为Logistic。两个编码的余弦用于相似性度量，自编码器(8)依然效果好于局部线性嵌入LLE，一个最近发现的非线性降维方法。

逐层/一层又一层预训练也可以用于分类和回归。在广泛使用的MNIST手写数字识别任务上，随机初始化的BP网络最好的错误率为1.6% ,支持向量机最好为1.4%。在逐层预训练的784-500-500-2000-10 网络，使用梯度下降法和小学习速率的反传网络达到了1.2%。预处理帮助/促进泛化是因为权值产生的大多数信息来自于图像本身的建模。只有特定的受限制的带标签的训练信息用于调整权值。

从1980年之后，已证明若在计算速度较快、数据集足够大，初始权值接近最优权值，反传算法用于深度自编码将是一个非常有效的方法。现在所有三个条件都已经满足。不像非参数模型（15,16）,自编码器给出了方向和范围两方面的映射，并且可以用于大数据集合，因为预处理和参数微调都在线性时间和空间内执行。

参考文献：

1. D. C. Plaut, G. E. Hinton, Comput. Speech Lang. 2, 35(1987).

2. D. DeMers, G. Cottrell, Advances in Neural Information Processing Systems 5 (Morgan Kaufmann, San Mateo, CA,1993), pp. 580–587.

3. R. Hecht-Nielsen, Science 269, 1860 (1995).

4. N. Kambhatla, T. Leen, Neural Comput. 9, 1493(1997).

5. P. Smolensky, Parallel Distributed Processing: Volume 1:Foundations, D. E. Rumelhart, J. L. McClelland, Eds. (MITPress, Cambridge, 1986), pp. 194–281.

6. G. E. Hinton, Neural Comput. 14, 1711 (2002).

7. J. J. Hopfield, Proc. Natl. Acad. Sci. U.S.A. 79, 2554(1982).

8. See supporting material on Science Online.

9. G. E. Hinton, S. Osindero, Y. W. Teh, Neural Comput. 18,1527 (2006).

10. M. Welling, M. Rosen-Zvi, G. Hinton, Advances in Neural Information Processing Systems 17 (MIT Press, Cambridge,MA, 2005), pp. 1481–1488.

11. The MNIST data set is available at http://yann.lecun.com/exdb/mnist/index.html.
12. The Olivetti face data set is available at www.cs.toronto.edu/ roweis/data.html.

13. The Reuter Corpus Volume 2 is available at http://trec.nist.gov/data/reuters/reuters.html.
14. S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W.Furnas, R. A. Harshman, J. Am. Soc. Inf. Sci. 41, 391(1990).

15. S. T. Roweis, L. K. Saul, Science 290, 2323 (2000).

16. J. A. Tenenbaum, V. J. de Silva, J. C. Langford, Science

290, 2319 (2000).

17. We thank D. Rumelhart, M. Welling, S. Osindero, and S. Roweis for helpful discussions, and the Natural Sciences and Engineering Research Council of Canada for

funding. G.E.H. is a fellow of the Canadian Institute for Advanced Research.

Supporting Online Material

www.sciencemag.org/cgi/content/full/313/5786/504/DC1

Materials and Methods

Figs. S1 to S5

Matlab Code

20 March 2006; accepted 1 June 2006

10.1126/science.1127647

后记：

有一天，把感知和决策划归到触发器分类的范畴，把多类分类划归为维度压缩，把任意物体压缩到特征空间、把特征集合压缩到任意一维的离散个点上，这就是特征提取和分类器设计。特征提取和分类器设计？都是降维？

这样不好吧？

参考一下链接：/article/8168922.html

代码下载：http://www.cs.toronto.edu/~hinton/MatlabForSciencePaper.html

（一个需要注意的地方，就是数据文件：要使用gunziptrain-images-idx3-ubyte.gz 进行解压~若使用winzip解压后，会损坏相关数据文件~）

总结：

参考链接：http://blog.csdn.net/zouxy09/article/details/8781543/

工程角度理解：

训练方法：

1）首先逐层构建单层神经元，这样每次都是训练一个单层网络。

2）当所有层训练完后，Hinton使用wake-sleep算法进行调优。

将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其它层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。

比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒（wake）和睡（sleep）两个部分。

1）wake阶段：认知过程，通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。也就是“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的”。

2）sleep阶段：生成过程，通过顶层表示（醒时学得的概念）和向下权重，生成底层的状态，同时修改层间向上的权重。也就是“如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念”。

DL具体训练过程：

1）使用自下上升非监督学习：

（就是从底层开始，一层一层的往顶层训练）采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看作是feature learning过程）：

具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型capacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；

2）自顶向下的监督学习：

（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）基于第一步得到的各层参数进一步fine-tune整个多层模型的参数，这一步是一个有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以deep
learning效果好很大程度上归功于第一步的feature learning过程。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航