您的位置：首页 > 理论基础 > 计算机网络

神经网络的权重初始化

2018-01-05 21:27 399 查看

权重初始化的合理与否常常决定了训练时网络能否收敛。常用的神经网络权重初始化方法有xavier和msra。由于基于的激活函数的假设不一样，msra的方差是xavier的2倍。

xavier初始化基于线性激活函数，线性激活函数相当于没有激活函数。原始论文发表于2010年，当时卷积神经网络尚未被引爆，因此是基于多层感知器网络的。假使论文的读者以为是基于卷积神经网络，可能对其中的个别符号会有误解。例如在论文中，fin_in被标记为n(l)和n(l+1)，这个标记默认了这一层fin_out等于下一层的fin_in。对于CNN中的某一个卷积层：

fin_in = k_h*k_w*c_in

fin_out=k_h*k_w*c_out（注：fin_out在卷积层的stride大于1时存疑）

前后层的卷积核尺寸差异会导致上面的条件不满足。只有在全连接网络，输入和输出特征图的空间尺寸是1x1，使得：

k_h=k_w=1

fin_in=c_in=n(l)

fin_out=c_out=n(l+1)

xavier初始化使用的是均匀分布：

对应的caffe实现代码：

template <typename Dtype>
class XavierFiller : public Filler<Dtype> {
public:
explicit XavierFiller(const FillerParameter& param)
: Filler<Dtype>(param) {}
virtual void Fill(Blob<Dtype>* blob) {
CHECK(blob->count());
int fan_in = blob->count() / blob->num();
int fan_out = blob->count() / blob->channels();
Dtype n = fan_in;  // default to fan_in
if (this->filler_param_.variance_norm() ==
FillerParameter_VarianceNorm_AVERAGE) {
n = (fan_in + fan_out) / Dtype(2);
} else if (this->filler_param_.variance_norm() ==
FillerParameter_VarianceNorm_FAN_OUT) {
n = fan_out;
}
Dtype scale = sqrt(Dtype(3) / n);
caffe_rng_uniform<Dtype>(blob->count(), -scale, scale,
blob->mutable_cpu_data());
CHECK_EQ(this->filler_param_.sparse(), -1)
<< "Sparsity not supported by this Filler.";
}
};

caffe的blob存储卷积层的权重的时候，还是按NCHW的顺序，只不过这里的N是输出通道数，而C是输入通道数。

msra初始化时的公式推导是基于ReLu的，然而尴尬的是何恺明的那篇文章使用的是PReLu（参数化的ReLu）。相同的信号流经ReLu和PReLu后，整流出来的信号能量是不同的，能量比是(1+a^2) : 1。具体地，在原始论文中a被初始化为0.25，能量比为1.0625:1。估计是因为这个比例非常地接近1，所以msra初始化没有基于PReLu另写一个公式。

msra初始化是基于高斯分布的，不是xavier使用的均匀分布。个人觉得高斯分布更符合网络稀疏性的要求。

上述两种权重初始化方法均基于传统CNN网络，从GoogleNet开始打破了传统的CNN网络结构，按理说权重初始化方法应该随着网络结构的变化而更新。然而到目前为止，出名的就上面两种。这是为什么呢？因为2015年出现的batch normalization技术已经弱化了权重初始化对网络是否收敛的影响，batch normalization技术使得权重初始化方差在一个很宽的范围内网络均能收敛。

在一些较为复杂的网络中，即使将权重初始化为xavier或msra，网络仍然不收敛。这类网络往往很难训练出来，这个时候只能使用fine-tune的方法初始化网络权重，例如使用标准Resnet网络模型文件或网络在其他数据集的模型文件，作为部分或全部层的初始化参数。

References

1. Xavier Glorot, Yoshua Bengio. Understanding the Difficulty of Training Deep Feedforward Neural Networks

2. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航