您的位置：首页 > 理论基础 > 计算机网络

神经网络中的参数的求解：前向和反向传播算法

2016-07-13 21:37 375 查看

original url:
http://www.cnblogs.com/happylion/p/4193527.html
For more info: you could ref the book《Pattern Recognition and Machine Learning》

神经网络最基本的知识可以参考神经网络基本知识，基本的东西说的很好了，然后这里讲一下神经网络中的参数的求解方法。

注意前一次的各单元不需要与后一层的偏置节点连线，因为偏置节点不需要有输入也不需要sigmoid函数得到激活值，或者认为激活值始终是1.

一些变量解释：

标上“

”的圆圈被称为偏置节点，也就是截距项.

本例神经网络有参数

，其中

（下面的式子中用到）是第

层第

单元与第

层第

单元之间的联接参数（其实就是连接线上的权重，注意标号顺序），

是第

层第

单元的偏置项。

用

表示第

层的节点数（偏置单元不计在内）

用

表示第

层第

单元的激活值（输出值）。当

时，

，也就是样本输入值的第

个特征。

用

表示第

层各单元对第

层第

单元进行输入加权和（包括偏置单元），比如，

，所以

，这里的f（.）就是激活函数，一般是sigmoid函数

。

表示最后的输出量，如果网络最终输出是一个值，那么

就是一个标量，如果最终输出不止一个值（样本的label
y也是一个矢量），那么

就是一个矢量。

对于上图：我们有

把这些公式利用向量变成另一中公式形式（激活函数

也扩展为用向量（分量的形式）来表示，即

）为：

这也就是我们把wij定义成上面那样的元素，这样直接根据wij的标号排成一个矩阵，而不用再变换或转置之类的了。

假设w和b已知的话，我们根据上两行的迭代公式不停的迭代就得到了神经网络里各个单元的激活值

。

上面的计算步骤叫作前向传播。

因为我们w和b是不知道的，我们还得要通过训练学习到这些参数，那么我们怎么训练得到那？我们知道一些训练样本

（注意这里里

不一定是一个标量，而是

），我们仍然使用梯度下降法来通过迭代得到收敛后的模型参数值。

我们在每一次迭代中，假设w和b是已知的，然后通过一次前向传播得到模型中激活值

。

我们根据每一次迭代中模型最后输出的

跟样本的标记

做差平方（如果都是矢量的话，做差平方是向量里的各个元素分别对应做差然后平方和），然后求出所有样本的这些误差平方和。然后得到每一次迭代的cost
function （含L2正则项）：

虽然这里每一个神经元类似于logistic回归模型，但是这里cost function中没用似然函数方法，还是利用的均方误差。其实这两种方法得到的结果是一样的（还记得利用似然函数求得的公式跟均方误差公式一样么）。类似的，在L2正则项中，参数不包括偏置参数，也就是常数项那些参数。

模型中如果使用的激活函数是sigmoid函数，那么这个模型最后输出层里的每个节点输出的值都在(0,1)之间，那么样本的标记向量

里的元素就要求在（0,1）之间，所以我们首先要用某种方法转变样本的标记范围（类似标准化，如果模型的激活函数使用的是tanh函数，那么这里就是采用的标准化转变样本标记值）（译者注：也就是

），以保证其范围为（0,1）之间。

我们有了cost function，接下来我们就需要最小化这个function，我们使用梯度下降法，也就是这俩公式：

……………………………………………………………………………………………………………………………………………………...(1)

但是我们这时候不能直接对cost function对每一个参数进行求偏导，因为这些参数都是相互关联的，没办法找到显式的偏导。我们只能曲线救国。我们怎么求偏导呢？我们使用反向传播算法求得，具体是这样的：

我们不是一下对整个