您的位置:首页 > 其它

为什么使用ReLU而不是sigmoid

2017-10-12 13:25 169 查看
sigmoid计算复杂,需要计算指数

梯度弥散:

对于每层只有一个神经元的网络,考虑每一层的偏导数,我们发现

∂C∂b1=σ′(z1),w2σ′(z2),w3σ′(z3),w4σ′(z4),∂C∂a4.(122)

中间有多个wiσ′(zi)连乘,而观察sigmoid的导数可以发现,它的最大值为1/4,对于w,我们通常使用高斯分布初始化,所以它的值通常小于1,所以|wjσ′(zj)|<1/4,

真正的问题是每个层的学习速率不同

而如果使用ReLU的话它在大于零的情况下导数值为1,所以可以在一定的程度上避免这个问题。

ReLU的训练和sigmoid相同,只不过是要分段求导而已。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: