您的位置：首页 > 其它

深度学习DL中权重weight初始化方法

2018-01-19 08:51 447 查看

神经网络，或者深度学习算法的参数初始化是一个很重要的方面，传统的初始化方法从高斯分布中随机初始化参数。甚至直接全初始化为1或者0。这样的方法暴力直接，但是往往效果一般。本篇文章的叙述来源于一个国外的讨论帖子[1]，下面就自己的理解阐述一下。

首先我们来思考一下，为什么在神经网络算法（为了简化问题，我们以最基本的DNN来思考）中，参数的选择很重要呢？以sigmoid函数（logistic neurons）为例，当x的绝对值变大时，函数值越来越平滑，趋于饱和，这个时候函数的倒数趋于0，例如，在x=2时，函数的导数约为1/10，而在x=10时，函数的导数已经变成约为1/22000，也就是说，激活函数的输入是10的时候比2的时候神经网络的学习速率要慢2200倍！

为了让神经网络学习得快一些，我们希望激活函数sigmoid的导数较大。从数值上，大约让sigmoid的输入在[-4,4]之间即可，见上图。当然，也不一定要那么精确。我们知道，一个神经元j的输入是由前一层神经元的输出的加权和，xj=∑iai⋅wi+bj。因此，我们可以通过控制权重参数初始值的范围，使得神经元的输入落在我们需要的范围内。

一种比较简单、有效的方法是：权重参数初始化从区间均匀随机取值。

(−1d√,1d√)，其中d是一个神经元的输入数量。

为了说明这样取值的合理性，先简单回顾一下几点基本知识：

1.符合均匀分布U（a,b）的随机变量数学期望和方差分别是——数学期望：E(X)=(a+b)/2，方差：D(X)=(b-a)²/12

2.如果随机变量X,Y是相互独立的，那么Var(X+Y) = Var(X)+Var(Y)，如果X,Y是相互独立的且均值为0，那么Var(X*Y) = Var(X)*Var(Y)

因此，如果我们限制神经元的输入信号(xi)是均值=0，标准差=1的，那么

Var(wi)=(2d√)2/12=13d\begin{equation}
Var(w_i) = (\frac{2}{\sqrt{d}})^2/12=\frac{1}{3d}

Var(∑i=1dwixi)=d∗Var(wi)=13\begin{equation}
Var(\sum_{i=1}^{d} w_i x_i) = d*Var(w_i)= \frac{1}{3}

也就是说，随机的d个输入信号加权和，其中权重来自于(−1d√,1d√)均匀分布，服从均值=0，方差=1/3的正态分布，且与d无关。所以神经元的输入落在区间[-4,4]之外的概率非常小。

更一般的形式可以写为：

∑i=0d<wixi>=∑i=0d<wi><xi>=0\begin{equation}
\sum_{i=0}^{d}<w_{i}x_{i}> = \sum_{i=0}^{d}<w_{i}><x_{i}> = 0

⟨(∑i=0dwixi)(∑i=0dwixi)⟩=∑i=0d<w2i><x2i>=σ2d\begin{equation}
\left<\left(\sum_{i=0}^{d}w_{i}x_{i}\right) \left(\sum_{i=0}^{d}w_{i}x_{i}\right)\right> = \sum_{i=0}^{d}<w_{i}^{2}><x_{i}^{2}> = \sigma^{2}d

另外一种较新的初始值方法

根据Glorot & Bengio (2010) [4], initialize the weights uniformly within the interval [−b,b], where

b=6Hk+Hk+1−−−−−−−−−√,\begin{equation}
b = \sqrt{\frac{6}{H_k + H_{k+1}}},

Hk are the sizes of the layers before and after the weight matrix, for sigmoid units. Or hyperbolic tangent units: sample a Uniform [−b,b] with

b=46Hk+Hk+1−−−−−−−−−√,\begin{equation}
b = 4\sqrt{\frac{6}{H_k + H_{k+1}}},

其他场景的初始值方法[2]

in the case of RBMs, a zero-mean Gaussian with a small standard deviation around 0.1 or 0.01 works well (Hinton, 2010) to initialize the weights.

Orthogonal random matrix initialization, i.e. W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W) then use u as your initialization matrix.

参考资料

[1] http://stats.stackexchange.com/questions/47590/what-are-good-initial-weights-in-a-neural-network

[2] Bengio, Yoshua. “Practical recommendations for gradient-based training of deep architectures.” Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012. 437-478.

[3] LeCun, Y., Bottou, L., Orr, G. B., and Muller, K. (1998a). Efficient backprop. In Neural Networks, Tricks of the Trade.

[4] Glorot, Xavier, and Yoshua Bengio. “Understanding the difficulty of training deep feedforward neural networks.” International conference on artificial intelligence and statistics. 2010.

<link href="http://csdnimg.cn/release/phoenix/production/markdown_views-10f5517761.css" rel="stylesheet">
</div>

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航