训练深度神经网络的时候需要注意的技巧
2016-04-24 09:28
681 查看
来自:http://mp.weixin.qq.com/s?__biz=MzI0NTI2NzA2NA==&mid=2685478524&idx=1&sn=ae6c4c1e9300287afeade77a92ef13b4#rd
1、准备数据:务必保证有大量、高质量并且带有干净标签的数据,没有如此的数据,学习是不可能的
2、预处理:这个不多说,就是0均值和1方差化
3、minibatch:建议值128,1最好,但是效率不高,但是千万不要用过大的数值,否则很容易过拟合
4、梯度归一化:其实就是计算出来梯度之后,要除以minibatch的数量。这个不多解释
5、下面主要集中说下学习率
总的来说是用一个一般的学习率开始,然后逐渐的减小它
一个建议值是0.1,适用于很多NN的问题,一般倾向于小一点。
一个对于调度学习率的建议:如果在验证集上性能不再增加就让学习率除以2或者5,然后继续,学习率会一直变得很小,到最后就可以停止训练了。
很多人用的一个设计学习率的原则就是监测一个比率(每次更新梯度的norm除以当前weight的norm),如果这个比率在10-3附近,如果小于这个值,学习会很慢,如果大于这个值,那么学习很不稳定,由此会带来失败。
6、使用验证集,可以知道什么时候开始降低学习率,和什么时候停止训练。
7、关于对weight初始化的选择的一些建议:
如果你很懒,直接用0.02*randn(num_params)来初始化,当然别的值你也可以去尝试
如果上面那个不太好使,那么久依次初始化每一个weight矩阵用init_scale / sqrt(layer_width) * randn,init_scale可以被设置为0.1或者1
初始化参数对结果的影响至关重要,要引起重视。
在深度网络中,随机初始化权重,使用SGD的话一般处理的都不好,这是因为初始化的权重太小了。这种情况下对于浅层网络有效,但是当足够深的时候就不行了,因为weight更新的时候,是靠很多weight相乘的,越乘越小,有点类似梯度消失的意思(这句话是我加的)
8、如果训练RNN或者LSTM,务必保证gradient的norm被约束在15或者5(前提还是要先归一化gradient),这一点在RNN和LSTM中很重要。
9、检查下梯度,如果是你自己计算的梯度。
10、如果使用LSTM来解决长时依赖的问题,记得初始化bias的时候要大一点
12、尽可能想办法多的扩增训练数据,如果使用的是图像数据,不妨对图像做一点扭转啊之类的,来扩充数据训练集合。
13、使用dropout
14、评价最终结果的时候,多做几次,然后平均一下他们的结果。
1、准备数据:务必保证有大量、高质量并且带有干净标签的数据,没有如此的数据,学习是不可能的
2、预处理:这个不多说,就是0均值和1方差化
3、minibatch:建议值128,1最好,但是效率不高,但是千万不要用过大的数值,否则很容易过拟合
4、梯度归一化:其实就是计算出来梯度之后,要除以minibatch的数量。这个不多解释
5、下面主要集中说下学习率
总的来说是用一个一般的学习率开始,然后逐渐的减小它
一个建议值是0.1,适用于很多NN的问题,一般倾向于小一点。
一个对于调度学习率的建议:如果在验证集上性能不再增加就让学习率除以2或者5,然后继续,学习率会一直变得很小,到最后就可以停止训练了。
很多人用的一个设计学习率的原则就是监测一个比率(每次更新梯度的norm除以当前weight的norm),如果这个比率在10-3附近,如果小于这个值,学习会很慢,如果大于这个值,那么学习很不稳定,由此会带来失败。
6、使用验证集,可以知道什么时候开始降低学习率,和什么时候停止训练。
7、关于对weight初始化的选择的一些建议:
如果你很懒,直接用0.02*randn(num_params)来初始化,当然别的值你也可以去尝试
如果上面那个不太好使,那么久依次初始化每一个weight矩阵用init_scale / sqrt(layer_width) * randn,init_scale可以被设置为0.1或者1
初始化参数对结果的影响至关重要,要引起重视。
在深度网络中,随机初始化权重,使用SGD的话一般处理的都不好,这是因为初始化的权重太小了。这种情况下对于浅层网络有效,但是当足够深的时候就不行了,因为weight更新的时候,是靠很多weight相乘的,越乘越小,有点类似梯度消失的意思(这句话是我加的)
8、如果训练RNN或者LSTM,务必保证gradient的norm被约束在15或者5(前提还是要先归一化gradient),这一点在RNN和LSTM中很重要。
9、检查下梯度,如果是你自己计算的梯度。
10、如果使用LSTM来解决长时依赖的问题,记得初始化bias的时候要大一点
12、尽可能想办法多的扩增训练数据,如果使用的是图像数据,不妨对图像做一点扭转啊之类的,来扩充数据训练集合。
13、使用dropout
14、评价最终结果的时候,多做几次,然后平均一下他们的结果。
相关文章推荐
- XDU-1138 Z1+Z2 (水~复数相加) From 西电校赛网络赛
- tcp协议案例
- Android 简单模仿AsyncHttpClient
- BNUOJ-51635 Check In From 网络同步赛 A
- IPerf——网络测试工具介绍与源码解析(1)
- 高性能网络编程5--IO复用与并发编程
- 高性能网络编程4--TCP连接的关闭
- 高性能网络编程3----TCP消息的接收
- 高性能网络编程2----TCP消息的发送
- 高性能网络编程1----accept建立连接
- 【多题合集】网络流24题练习(更新至魔术球问题)
- Part 18 $http service in AngularJS
- Part 17 Consuming ASP NET Web Service in AngularJS using $http
- android封装网络请求
- TCP拥塞控制原理
- linux网络编程--第一弹UDP基本通信
- 网络编程学习——多播
- 网络编程学习——带外数据
- ZABBIX 监控Linux Http 服务器
- Head First C 第十一章 网络与套接字 创建knock-knock 服务器 part I