您的位置：首页 > 理论基础 > 计算机网络

BP神经网络：误差反向传播公式的简单推导

2017-01-07 17:43 417 查看

最近看了一下BP神经网络(Backpropagation Neural Networks)，发现很多资料对于BP神经网络的讲解注重原理，而对于反向传播公式的推导介绍的比较简略，故自己根据《PATTERN RECOGNITION AND MACHINE LEARNING》这本书的思路推导了一下反向传播的过程，记录在这里，以便以后看。对于BP神经网络的工作原理此处就不再赘述，周志华大牛的《机器学习》中介绍的很详细。

PS: 本人第一次写博客，不足之处还请见谅。

1. BP网络模型及变量说明

1.1 模型简图

1.2 变量说明：

ml：第l层神经元个数

x(1)p: 输入层第p个神经元，p=1...m1；

yk : 输出层第k的神经元的输出，k=1...ml+1；

tk：输出层第k的神经元的目标值，k=1...ml+1；

z(l)j：第l层的第j的神经元的输入；

a(l)j：第l层第
1a4bb
j个神经元的输出；

a(l)0：第l层的偏置项；

w(l)ji：第l−1层第i个神经元与第l层第j个神经元的连接权值；

h(.)：激活函数，这里假设每一层各个神经元的激励函数相同（实际中可能不同）；

Ep：网络在第p个样本输入下的偏差，n=1...N；

N：样本总数

2. 误差反向传播相关推导

2.1 正向传播（forward-propagation）

正向传播的思想比较直观，最主要的是对于激活函数的理解。对于网络中第l层的第j个神经元，它会接受来自第l−1层所有神经元的信号，即：

z(l)j=∑i=1ml−1wjia(l−1)i+a(l−1)0

如果令wj0=1，可以将公式简写为：

z(l)j=∑i=0ml−1wjia(l−1)i

则经过该神经元后的输出值为：

a(l)j=h(z(l)j)

对于多分类问题，网络输出层第k个神经元输出可表示为：

yk=a(l+1)k=h(zj)=h(∑j=0mlwkja(l)j)

这里说明一下，BP神经网络中激活函数通常会取sigmoid函数或tanh函数，不清楚的可以百度一下这两个函数，这里不再赘述。

2.2 代价函数（cost function）

由2.1节公式可以得到BP网络在一个样本下的输出值，我们定义平方和误差函数（sum-of-square error function）如下：

Ep=∑k=1ml+112(yk−tk)2

所有样本输入下，网络的总误差为：

EN=∑p=1NEp

2.3 反向传播（back-propagation）

这是BP神经网络最核心的部分，误差从输出层逐层反向传播，各层权值通过梯度下降法（gradient descent algorithm）进行更新，即：

w:=w−η▽Ep(w)

上式中，η是每次更新的步长，▽Ep(w)是第p个样本输入下的输出偏差对某一层权值的偏导数，表示每输入一个样本更新一次参数。

下面我们以w(l)ji为例推导梯度项：

∂Ep∂w(l)ji==∂Ep∂z(l)j∂z(l)j∂w(l)ji∂Ep∂z(l)ja(l−1)i

这里我们定义δ(l)j=∂Ep∂z(l)j，对于输出层，可以得出δ(l+1)k=yk−tk=a(l+1)k−tk，则上式可表示为：

∂Ep∂w(l)ji=δ(l)ja(l−1)i

现在问题转换为求解δ(l+1)k:

δ(l)j==∂Ep∂z(l)j∑k=1ml+1∂Ep∂z(l+1)k∂z(l+1)k∂z(l)j

根据δ的定义可知∂Ep∂z(l+1)k=δ(l+1)k，代入上式，则：

δ(l)j==∑k=1ml+1δ(l+1)k∂z(l+1)k∂z(l)j∑k=1ml+1δ(l+1)k∂z(l+1)k∂a(l)j∂a(l)j∂z(l)j

根据z(l+1)k和alj的定义可知：

∂z(l+1)k∂a(l)j=w(l+1)kj∂a(l)j∂z(l)j=h′(z(l)j)

代入上式得：

δ(l)j==∑k=1ml+1δ(l+1)kw(l+1)kjh′(z(l)j)h′(z(l)j)∑k=1ml+1w(l+1)kjδ(l+1)k

由此我们得到了误差从输出层向低层反向传播的递推公式，进而可以求出误差对于每一层权值的梯度▽Ep(w)

3. 总结

BP神经网络是应用最多的一种神经网络，其精髓在于误差反向传播。本人在学习这块内容是为了给接下来学习和研究深度学习及caffe做准备，由于个人水平有限，在上述推导中可能存在不合理的地方，还请见谅，同时也欢迎指出内容的不足之处。

4. 参考文献

[1] 周志华，机器学习[M] , 清华大学出版社，2016.

[2] CHRISTOPHER M.BISHOP. PATTERN RECOGNITION AND MACHINE LEARNING [M], 2006.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 神经网络机器学习模式识别

相关文章推荐

新的分享

章节导航