您的位置：首页 > 大数据 > 人工智能

Practical Recommendations for Gradient-Based Training of Deep Architectures

2016-06-14 17:39 561 查看

3 超参数

1）神经网络超参数

近似优化超参数：初始学习率，学习率策略超参数，mini-batch尺寸，训练迭代次数，动量β，逐层优化超参数

2）模型及训练准则超参数

a. 隐含层节点数目nh：选择尽可能大的隐含层节点使训练能够早结束，所有层使用相同的隐含层数目不会比逐层选取的效果差。

b. 权值衰减归一化系数λ：

为防止过度拟合，为训练准则增加权重衰减项，L2归一化为训练准则增加λ∑iθ2i项，L1增加λ∑i|θi|。

L2对比较大的值惩罚比较大，对应高斯先验，L1将没有太大用的参数变成0，即变稀疏，对应Laplace密度先验。

c. Sparsity of activation regularization coefficient α

d. 非线性神经元

神经元输出是s(a)=s(w,x+b)，其中s是非线性函数，隐含层节点常用的有sigmoid，双曲正切函数，rectifier max。如果深度监督网络的最后一个隐含层使用sigmoid函数且未经非监督预训练，优化将比较困难。自动编码器则效果比较好。输出节点使用rectifier没有意义，输出节点一般使用负对数似然并选择合适的输出概率模型。

e. 权值初始化系数

为打破同层隐含节点之间的对称性，权值初始化比较重要。要将参数进行随机初始化，而不是全部置为 0。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数。具有多个输入的节点权值相对较小。

f.预处理

1）像素级处理：求均值和偏差

2）PCA降维

3）归一化

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航